생성형 인공지능 | ||
{{{#!wiki style="margin:-0px -10px -5px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all" |
텍스트 |
[[소설| 소설 ]]
NovelAI ·
AI Dungeon ·
AI 노벨리스트
|
대화형 |
[[챗봇| 챗봇 ]]
ChatGPT ·
Microsoft Copilot ·
Gemini ·
CLOVA X ·
Cue: ·
Inflection AI ·
Mistral AI
|
|
[[언어 모델| 언어모델 ]]
GPT-1 ·
GPT-2 ·
GPT-3 ·
GPT-4 · |
||
코드 |
[[코드#컴퓨터 소프트웨어| 코드 ]]
GitHub Copilot ·
Devin
|
|
그림/영상 |
[[그림 인공지능| 그림 ]]
Midjourney ·
DALL·E ·
Artbreeder ·
NovelAI Image Generation ·
Stable Diffusion ·
Gaugan2 ·
Dream by WOMBO ·
Adobe Firefly
|
|
[[영상| 영상 ]]
Stable Video ·
Sora ·
Lumiere ·
Runway AI
|
||
[[모델링| 모델링 ]]
LATTE3D
|
||
오디오/소리 |
[[음성| 음성 ]]
A.I.VOICE ·
DeepVocal ·
Voice Engine
|
|
[[음악| 음악 ]]
Suno AI ·
Stable Audio ·
Udio ·
AIVA ·
SOUNDRAW ·
Mix.audio ·
vio.dio
|
||
멀티모달 |
[[멀티모달 모델| 멀티모달 ]]
삼성 가우스 ·
Gemini
|
|
행위/동작 |
[[인공지능 로봇| 로봇 ]]
Robot Operating Syetem(ROS) ·
Google RT-X ·
피규어 01 ·
프로젝트 그루트
|
}}}}}}}}} |
LLaMA Large Language Model Meta AI |
|
공개일 | 2023년 2월 24일 |
제작사 | 메타 |
기능 | 언어모델 |
인프라 | NVIDIA GPU, MTIA 등 |
링크 |
[clearfix]
1. 개요
LLaMA는 메타의 오픈소스 언어모델이다.LLaMA1~LLaMA3까지 출시되었으며 특히 LLaMA3는 굉장히 큰 발전을 이뤄낸 모델이다.
2. 제품
2.1. LLaMA-1
2023년 2월 24일에 공개했다. 매개변수는 70억부터 650억 개 버전까지 존재한다. 학계를 대상으로 오픈소스로 공개하면서 알파카, 비쿠냐 등 수 많은 파생형 모델들의 탄생에 기여했다.2.2. LLaMA-2
2023년 7월 18일에 공개되었다. 매개변수는 70억부터 시작하지만, 700억 개 짜리 모델까지 학계뿐만 아니라 기업 등 상용으로도 공개하여 큰 주목을 받고 있다. 특히 마이크로소프트와 우선 계약을 체결하여 큰 화재를 모았는데, 메타와 마이크로소프트 둘 다 2010년대 중반까지만 해도 상당히 폐쇄적인 운영을 해왔기에 개발자들은 놀라움을 자아내고 있는 상황이다.[1]
2.3. LLaMA-3
2024년 4월 18일 공개되었다. 우선적으로 매개변수 80억개와 700억개 버전을 공개했으며, meta.ai를 통해 영미권 국가들을 우선 대상으로 인스타그램 등 자사 플랫폼에 챗봇이 도입된다. #라마 2와 비교해 상당한 수준의 성능 발전을 이루었으며, Meta에 따르면 라마 3은 공개 당시 오픈 소스 LLM 중 최고 성능의 모델이다. 라마 2와 비교해서 변경된 점은 다음과 같다:
- 라마 2는 2조 개의 토큰으로 학습되었지만 라마 3는 15조 토큰으로 학습되었다.
- 컨텍스트 길이가 8K로 늘어났다. 라마 2의 컨텍스트 길이인 4K 토큰과 비교해 2배 수준이다.
추후에 4000억개 매개변수를 가진 가장 큰 라마 3 모델이 공개될 예정이다. 이 모델은 GPT-4, Claude 3 Opus를 뛰어넘을 수 있는 오픈소스 모델로 주목받고있다. 또한 메타는 다국어 기능이나 멀티모달, 더 긴 컨텍스트 길이 등의 기능이 추가된 모델도 공개할 예정이다.
위 표는 라마 2와 라마 3 베이스 모델의 성능 차이를 보여주는데 차이가 큰 것을 확인할 수 있다. 라마 3 8B가 라마 2 70B와 유사한 성능을 보여주며 라마 3 70B는 라마 2 모델과 비교해 모든 부분에서 더 좋은 성능을 보여준다.
지침을 따르도록 튜닝된 모델에서는 차이가 더욱 벌어진다. 라마 3 8B가 라마 2 70B를 이기는 모습을 보여준다.
라마 3 8B의 성능은 작은 사이즈에도 불구하고 GPT-3.5와 MMLU에서 거의 비슷한 수준이고, 다른 벤치마크에서는 GPT-3.5보다 더 뛰어난 성능을 보이기도 한다. 라마 3 70B는 놀라운 수준으로 라마 2 70B와 비교해서 MMLU 수치가 무려 29.1이나 올라 82.0이 되었다. 이 수치는 GPT-4의 MMLU 수치인 86.4에 근접한 수준이다.
다른 모델과 비교한 표를 보면 라마 3가 Anthropic 사의 Claude 3 Sonnet을 넘는 성능을 보여준다.
Meta가 추후에 공개할 예정인, 가장 큰 라마 3 400B 모델은 아직 학습중임에도 불구하고 MMLU 수치가 86.1로, 공개 당시 최고 성능의 모델인 GPT-4, Claude 3 Opus와 거의 동등한 수준의 MMLU 수치를 보여준다. 심지어 이는 아직 학습 중에 측정한 수치로 학습이 완료되면 성능이 더욱 상승할 것이며, 학습이 끝난다면 오픈소스 최초로 GPT-4, Claude 3 Opus를 뛰어넘는 모델이 될 수도 있다.
라마 3는 LMSYS Chatbot Arena 리더보드에서도 높은 성능을 보이고 있다. 2024년 4월 23일 기준 라마 3 70B 모델은 Claude 3 Sonnet와 함께 5위를 기록하고 있으며 영어 대화에 한정하면 GPT-4의 뒤를 이어 Claude 3 Opus와 함께 2위를 기록하기도 했다. 라마 3 8B는 전체에서 14위, 영어 대화에서는 Claude 3 Haiku와 함께 8위를 기록했다.
이처럼 라마 3는 라마 2에 비해 굉장히 큰 발전을 이뤄냈으며, 오픈소스 모델이지만 향후 GPT-4, Claude 3 Opus를 이길 수도 있는 모델이니만큼 라마 3는 무궁무진하게 활용될 예정이다.