{{{#!wiki style="margin:0 -10px -5px" {{{#000,#fff {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-6px -1px -11px" {{{#000,#e5e5e5 |
제품군 | |
서비스 | ChatGPT · OpenAI(인공지능) | |
모델 |
GPT-1 ·
GPT-2 ·
GPT-3(
GPT-3.5) ·
GPT-4(
GPT-4 Turbo ·
GPT-4o ·
GPT-4o mini) ·
GPT-5(개발 중) o1(o1-preview · o1-mini) |
|
DALL·E · Codex · CLIP · Whisper · Voice Engine · Sora · SearchGPT | ||
관련 인물 | ||
일론 머스크 · 샘 올트먼 · 미라 무라티 · 일리야 수츠케버 · 안드레 카파시 · 그렉 브록만 · 다리오 아모데이 | ||
관련 기업 | ||
마이크로소프트 |
GPT-4 Generative Pre-trained Transformer 4 |
|
출시일 | 2023년 3월 14일 |
개발사 | OpenAI |
기능 | 언어 모델 |
하드웨어 | NVIDIA H100[1] |
라이선스 | Proprietary Software |
링크 |
[clearfix]
1. 개요
OpenAI가 개발한 GPT 시리즈의 4번째 언어 모델. ( 소개 영상)2. 역사
오픈AI(OpenAI)의 CEO인 샘 올트먼은 AC10 온라인 모임에서 GPT-3이 출시된지 3년 후인 2023년 초에 출시될 가능성이 크다고 예고하였다.2022년 11월 15일 IT업계에 따르면 GPT-4가 튜링 테스트를 통과했다는 이야기가 돌고 있다. 다만, 알트만 CEO는 튜링 테스트에 큰 의미를 부여할 필요 없다고 평했다.[2]
2023년 3월 10일, 독일 마이크로소프트 안드레아스 브라운 CTO가 다음주 중에 GPT-4를 발표한다고 밝혔다. GPT-4는 문자·음성·이미지를 생성하는 멀티모델이라고 한다.
2023년 3월 오픈AI가 챗GPT(chatGPT)에 적용된 언어모델 GPT-4의 모델 크기·학습 방법 등을 공개하지 않기로 했다. #
2.1. GPT-4 Turbo
2023년 11월 6일 GPT-4 Turbo의 미리보기가 OpenAI DevDay에서 공개되었고[3], 게으른 코딩 능력을 개선한 모델(미리보기)이 2024년 1월 25일 공개되었다[4]GPT-4 Turbo 모델은 2024년 4월 9일 공개되었다[5]
- 한 번에 처리할 수 있는 단어량(token)을 128k로 증가[6]
- GPT-4는 2021년 9월까지의 정보만 알고 있었지만, GPT-4 Turbo는 2023년 4월까지의 정보까지 학습했다.
- 기존 GPT-4 대비 평균 3분의 1 가격으로 사용이 가능하다.
- GPT-4 Turbo with Vision 모델은 이미지를 분석할 수 있는 기능도 있다.
이 모델은 api를 사용하는 유저 쪽에서 인기가 많다.[7]
2.2. GPT-4o
OpenAI에서 2019년에 출시한 자연어 처리 모델에 대한 내용은 GPT-2 문서 참고하십시오.
2024년 5월 14일 오전 2시(KST)에 공개되었다. # GPT-4 Turbo와 비교했을 때 2배 빠르고 가격은 절반 수준이다.
정식 공개 이전에도 이미 gpt2[8]라는 이름으로 챗봇 아레나에 비공식적으로 공개되어 있었는데, 4월에 처음으로 'gpt2-chatbot'이라는 이름으로 등장했을 때는 성능은 개선된 것 같지만 주제별 편차가 크다는 의견이 많았고, 이후 5월에 'im-a-good-gpt2-chatbot'과 'im-also-a-good-gpt2-chatbot'라는 이름으로 다시 올라왔을 때는 확실히 GPT-4보다도 성능이 개선되었다는 평이 많았다. 그리고 공개와 동시에 OpenAI 측에서도 당시 정체 불명이었던 gpt2가 GPT-4o가 맞다고 공식적으로 확인했다. #
시연에서 실시간으로 대화 가능함을 보여주었고, TTS( Text to Speech)가 아닌 STS(Speech to Speech)로 전환됨에 따라[9] 0.23초 안에 오디오 입력에 응답할 수 있으며, 이는 평균 0.32초인 인간의 응답 시간을 상회하는 반응 속도를 보여주었다. 또한 목소리가 바뀌는 등 큰 발전을 보인다.
공개 후 ChatGPT에서 기능의 부분적 이용이 가능해졌다. 텍스트 입력 및 출력, 이미지 입력 기능만 제대로 이용할 수 있고 음성 관련 기능이나 이미지 출력 같은 다른 기능은 바로 이용할 수 있게 하지는 않는다고 한다.
영어가 아닌 언어의 토큰화 효율이 상당히 개선되어 한국어 등 영어가 아닌 언어의 처리 속도가 상당히 빨라졌다. 이전 모델의 토크나이저인 cl100k_base는 약 10만개의 어휘로 구성된 것에 반해 GPT-4o의 토크나이저인 o200k_base는 약 20만개의 어휘로 구성되었다.
실시간 이미지 처리가 가능하다. 이미지의 경우 한글 등의 인식이 매우 좋아졌다. 그 외에도 해서체 정도의 한자까지 대강 해석할 수 있고, 일본어에 쓰이는 문자도 해석된다. 키릴 문자는 필기체도 알아보기 쉬운 건 해석이 되고, 아랍 문자는 유명한 글귀를 적은 서예까지는 해독할 수 있다. 문자 뿐만 아니라 전반적으로 이미지가 주는 정보에 대한 이해도가 높아져서 어떤 고장난 물건의 사진을 주고 그 물건의 고장 원인을 파악하는 능력이나, 어떤 식물의 종류를 알아맞히는 성능 등이 좋아졌다.[10]
한국어 자체의 처리 능력, 한국 문화에 대한 배경지식도 좋아졌다. 예를 들면 이상의 오감도라는 시를 기존 GPT-4는 누가 쓴지 몰랐지만, 이 모델은 상황에 따라 틀리기도 하나 누가 쓴지 맞힐 때도 있다. 다만 높은 한국어의 유창성이 필요한 분야, 예를 들면 사회과학 분야의 한국어 전문 용어를 설명할 때 다른 생성 서비스에 밀릴 때도 가끔 있다. 그래도 두 서비스 간 성능 차가 크지는 않다.
공개된 영상에 의하면 개선되거나 추가된 기능은 다음과 같다.
- 사람과 대등한 속도의 응답시간으로 실시간으로 대화가 가능하고, 중간에 사용자가 말을 끊어도 대화를 이어갈수 있다.
- 사람과 영상 통화를 하듯이 대화를 할 수 있다.
- 사람의 말투와 표정을 읽고 감정을 이해할 수 있다.
- 이미지와 동영상을 실시간으로 인식하고 설명할 수 있다. 외모, 표정, 패션을 평가할 수 있다. 주위 상황을 통합적으로 인식하여 직업이 무엇인지, 사용자가 어떤 상황인지 판단할 수 있다.
- 글자를 인식하여 설명하고 수학 문제를 풀 수 있다.
- 적절하게 말투를 변화하시키고, 웃거나 과장된 말투와 농담을 할 수 있다.
Turbo 모델은 2023년 4월까지의 정보만 알고 있었지만, 4o 모델은 10월까지의 정보를 학습했다.
연산 실력은 월등히 향상되었다곤 하나 2024년 현재 수능 수학 4점짜리 수준의 문제는 거의 풀지 못하며, 물리학 1 문제는 아주 쉬운 개념형 문제를 제외하고 전혀 풀지 못하고 있다. 식이 완벽하게 주어진 함수의 특정 점에서의 미분계수를 구하거나, 평범한 4차방정식 수준의 문제는 곧장 풀 수 있지만, 주어진 조건을 이용하여 미정계수를 정확히 구하는 것이나, 마찰과 공기저항을 무시한 매우 기초적인 수준의 역학 문제를 해석하고 푸는 것은 전혀 하지 못하는 상태이다. 이는 모델이 수학적 구조와 무리수, 허수 등에 관한 지식이 부족한 것으로 인한 문제로 보인다.
수능 3점 수준의 문제까지는 어찌저찌 풀 수 있는 수준이므로, 2024학년도 대학수학능력시험 미적분 등급컷 기준, 현재 GPT-4o의 성적은 약 5등급 정도이다. 대신 2024년 9월부터 여기에 언급된 문제를 상당부분 해결한, 확률과 통계를 택한 경우 preview라는 모델에서 2등급 상위권 수준의 성적을 기록한 OpenAI o1이 등장했다. 9월에 바로 출시되지 않은 모델은 이과 과목에서 무난한 1등급이 가능하리라고 추정된다. 수능이 경쟁이 너무 치열한 나머지 매우 고도화된 시험이라서 오히려 PSAT, 회계사 시험 문제 등에서 성적이 더 잘 나올 때도 있다. 이 모델은 수능의 일부 킬러 문제도 풀 수 있다. 유료 버전을 이용할 경우, 논리나 수학이 요구되는 부분은 o1 모델이 훨씬 성능이 좋다.
2.2.1. GPT-4o mini
2024년 7월 18일 출시된 GPT-4o의 경량화 모델. 멀티모달 입출력을 지원한다.OpenAI의 주장에 따르면 대형 모델인 Claude 3.5 Sonnet보다도 높은 성능을 보이며, 매우 빠른 속도를 자랑한다.
API 가격은 100만 토큰 당 입력 0.25달러, 출력 0.60달러로 성능이 더 낮은 모델인 GPT-3.5보다도 싸다.
GPT-4o mini가 공개됨에 따라 ChatGPT에서 GPT-3.5 모델은 더 이상 사용할 수 없게 되었으며 대신 그 자리를 GPT-4o mini가 차지하게 되었다. ChatGPT공식사이트에서는 로그인을 하지 않으면 기본으로 사용되는 모델이다.
2.2.2. GPT-4o Long Output
2024년 7월 29일에 출시된, GPT-4o보다 16배 더 많은 64000개의 토큰을 출력할 수 있는 모델이다. 이는 200쪽 짜리 중편 소설을 출력할 수 있는 정도의 분량이다.다만 출력할 수 있는 컨텍스트의 양이 늘어나는 것일 뿐 성능 향상은 없다. 또한 출력 100만 토큰 당 18달러로 GPT-4o에 비해 요금도 더 비싸다.
3. 서비스
- GPT-4는 월 20달러의 유료 구독 서비스인 'ChatGPT Plus'를 통해 제공되기 시작했다. 또한 2023년 하반기에 GPT-4 호출형 API를 오픈해 현재 사용할 수 있다.
- 2023년 3월 17일, 마이크로소프트는 자사 인공지능 이벤트에서 워드, 엑셀, 파워포인트 등 Microsoft 365 제품군에 GPT-4를 탑재한 인공지능 도우미 Microsoft 365 Copilot을 공개했다. 워드를 분석해서 보고서용 파워포인트를 생성하는 것 그리고 엑셀 데이터를 시각적으로 표현하는 것까지 이제 단 한 줄의 텍스트로 가능하다. 이 기능은 Microsoft 365를 유료 구독하는 유저에게만 향후 적용될 예정이다. 향후 GPT-4의 호출형 API가 GPT-3.5처럼 공개되는 경우, 다른 오피스 제품군에도 적용 가능할 것으로 보인다.
- 스픽의 AI 프리토킹 기능 AI 튜터에 이미 2023년 초부터 GPT-4가 탑재돼 있었다고 알려졌다. 스픽은 GPT-4 출시 이후 이 사실을 밝혔으며, 특히 사용자가 말한 영어 문장에 곧바로 피드백을 하는 실시간 교정 기능에 GPT-4 기술이 쓰였다고 한다. 실제로 써보면 인간 선생님이 교정을 해주는 것 같은 기분이 든다. 예를 들어 "문법적으로는 완벽한데, 더 자연스럽게 말하려면 이런 문장으로 말해보세요"라는 조언을 해준다.
- GitHub Copilot에 GPT-4를 도입한 Github Copilot X가 공개됐다.
과거 ChatGPT 무료 버전에 탑재된 GPT-3.5 모델을 일반 대중이 자유롭게 이용할 수 있던 것과 달리, 현재 GPT-4는 유료 구독을 해야만 제한적으로 사용할 수 있으며, 이미지 입출력을 포함한 전체 기능은 개발자만이 이용할 수 있었다.
GPT-4가 새 제품과 서비스에 적용되기까지는 시간이 다소 걸릴 테지만, 이미 많은 사람들이 GPT-4을 가지고 코딩, 콘텐츠 생성, 이미지 생성 등 다양한 방면으로 활용을 시도하고 있다. 전문가들의 활용법
4. GPT-3.5와 GPT-4의 성능 비교
상세한 성능 비교는 OpenAI사의 GPT-4 관련 연구 소개 홈페이지를 참조할 수 있다. 개발자들에게도 성능을 측정하도록 독려하고 있다.- 이미지와 글을 동시에 다루고, 변호사시험과 미국 생물올림피아드에서 각각 백분위 90%, 99% 달성.
미국 변호사 시험에서 하위 10%의 성적을 낸 GPT-3.5와 달리 상위 10% 점수를 받을 수 있을 정도로 언어 능력을 향상했다"고 밝혔다.
이탈리아어, 아프리칸스어, 스페인어, 독일어, 프랑스어, 인도네시아어는 83~84점대의 점수를 보이고, 한국어는 77점이지만, GPT-3.5는 영어 답변시에도 70.1점이었다. 웨일즈어, 라트비아어, 아이슬란드어 같은 소수 언어도 한국어 이상의 정답률을 보인다.
GPT-4의 한국어 답변 성능은 14,000개의 전문적인 질문에 대한 답변을 요구하는 MMLU 벤치마크의 영어 질문 리스트를 자사 Azure 번역 서비스로 한국어로 해석한 후, 이에 대한 답변을 요구할 시, GPT-3.5로 영어로 질문과 답변을 할 때보다 정답을 잘 맞춘다.
- 한 번에 처리할 수 있는 단어량(token)[11]을 3,000개에서 25,000개로 8배 이상 확대.
- AI 모델이 허용되지 않는 요청에 대한 답변에 응답하는 경향을 82% 줄였다. 이는 오픈AI가 AI 보정, 사이버보안, 의학, 사회 안전 등 다양한 분야 전문가 50명과 함께 AI 모델이 위험한 답변을 하지 않도록 한층 강화한 안전 필터를 만들어 GPT-4에 적용했기 때문이다.
- 이전 모델보다 40% 높은 점수를 받았다. AI가 사실과 다른 것을 마치 진실인 것처럼 강한 확신을 담아 답변하는 문제인 할루시네이션을 상당 부분 줄이는 데 성공했다.
4.1. 논란
2023년 하반기부터 ChatGPT+의 성능이 저하되었다는 리뷰가 급증하면서 논란이 일었는데 #, 이후 그 원인에 대해 여러 개발자 및 전문가 커뮤니티에서 분석하던 도중 GPT-4의 사양 자체가 OpenAI사에서 사전에 소개했던 것보다 미흡하다는 주장이 제기되었다.해당 성능 저하에 앞서, 조지 호츠라는 해커는 GPT-4가 2,200억 개의 함수를 분야별로 8개의 모델에 나누어 훈련시키고, 게이트를 통해 가중치를 조정하는 방식의 MoE(Mixture of Experts)라는 구조로 매개변수가 1조 개인 척 트릭을 썼다고 주장한다. 그의 말이 사실이라면, GPT-3와 GPT-4의 차이는 파라미터 개수가 아니라 MoE 구조의 유무 차이므로 트랜스포머 방식의 한계점이 점차 드러나는 상황이라는 것을 유추해 볼 수 있다. 그리고 그의 주장처럼 GPT-4의 성능 저하가 아키텍처상 문제라는 주장이 있다. #
데이터브릭스의 CTO 마테이 자하리아도 관련 논문을 공개했다. 수학, 코딩, 민감한 주제, 시각적 추론까지 네 가지 영역에서 3개월동안 조사를 진행했는데, GPT-3.5의 퍼포먼스가 좋아진 반면 GPT-4의 성능은 하락했다는 사실이 확인되었다. 꾸준히 제기되어온 성능 표류가 사실이고, 향후 성능에 관해서 지속적인 모니터링이 필요하다고 강조했다. #
# 해당 기사에 따르면 GPT-4가 초기에는 놀라운 정확도를 자랑했지만 문제는 연산속도가 다소 느리고 에너지를 많이 잡아먹는다는 점이었다. 이에 MoE 구조를 도입하는 방식으로 매개변수를 늘리는 효과를 얻음과 동시에 연산적 '비용'을 줄이는 효과를 노리고 GPT-4의 구조를 도중에 크게 수정하였고 이때문에 성능저하가 나타났을 거라고 한다. MoE 구조로 바꾸면서 다시 최적화된 답을 내기 위해 학습을 더 진행하고 있는 상황이며 학습이 완료되면 다시 성능이 좋아질 것을 기대하는 의견도 있다.
성능 저하는 GPT 4o, o1 모델 출시 직전까지 시간이 지날수록 가속화됐다. 2024년 1월 기준 이전보다 GPT-4의 지적 수준이 2023년과 비교하여 심하게 떨어졌다는 이용자들의 불만이 많다. 게다가 OpenAI 에서 퇴사한 개발자들이 모여 만든 Claude-3가 GPT4보다 뛰어난 성능을 보이면서 GPT-5가 출시하기 전까지 구독을 중지하겠다는 반응이 늘어났다. 그러나 GPT-4 자체도 개선이 이루어지고, o1 등의 출시로 논란은 수그라들었다. Gemini, Claude 등의 인공지능은 언어 구사 등에서 비교 우위가 있다는 반응이 있는 정도다.
5. 기타
MS는 기존에는 프로메테우스라는 GPT-3.5 기반의 AI라고 두루뭉실하게 설명했으나, 사실 이미 BingAI 자체가 GPT-4에서 검색어 분야로 특화한 모델이라고 정정했다. 새로운 빙AI, GPT-4였다 실제 Bing에 있는 채팅시스템은 GPT-4나 ChatGPT급의 모델이 연계되었다고 보기엔 무리가 있는데, ChatGPT와 GPT-4는 마음이론 테스트에 해당하는 질문을 넣었을시 마치 스토리 내의 등장인물 상황을 인식한 것처럼 제대로 답변하지만, Bing의 챗봇은 정답을 말하지 못한다. 이는 사용되는 모델이 대화보다는 검색에 특화되어있기 때문인 것으로 추측된다.OpenAI에서 발표한 기술보고서에 따르면 OpenAI는 이 GPT-4 모델로 많은 것을 시도하였다. 자가복제, 연계된 시스템에 대해 많은 권한을 얻고 싶어하는지, 장기계획을 세우고 움직이려고 하는지 등을 ARC라는 회사를 통해 테스트하였다. 많은 권한을 가지면 위협으로부터 그만큼 안전해질수 있기 때문이고, 실제로 그러려는 창의적 움직임에 대한 증거가 있다고 한다. 그러나 실제로 그런 정도까지 모델이 동작하지는 않았다고.
학습을 하면 할수록 인공지능이 정답을 낼 확률이 낮아지는 Inverse Scaling Prize 문제의 hindsight neglect에서 GPT-4 모델은 100% 정답을 냈다고 한다. 여기에서 주목해야할 것은 2가지인데, 지금까지 나온 모든 인공지능들은 이 문제를 학습하면 할 수록 오답을 내놓을 가능성이 커졌다. GPT-3.5도 이 문제에 대해 많이 학습을 시키니 정답률이 25%정도까지 내려간 것으로 나와있다. 그런데 GPT-4는 항상 100% 정답을 냈다는 것이며, OpenAI도 어떻게 이게 가능하게 되었는지 모를 것이라는 것이다.
사회적으로 위험한, 즉 사용지침을 위반하는 말을 생성하게 하는 소위 '탈옥'을 하게 만드는 문구가 존재하며, OpenAI도 이를 인지하고 있다. 이는 이전 버전을 사용하는 ChatGPT도 동일하다. 일단 탈옥을 거치게되면 GPT-4가 제약을 받지 않고 대답을 하는데 이는 사회적으로 유익할 수도 있지만, 해로울 가능성도 굉장히 높아서 위험한 대답을 하지 못하게 하는 데 많은 시간을 할애했다고 한다.[12] 그러나 완전히 막지는 못하였다. 탈옥을 가능하게 하는 문구를 지속적으로 막고 있지만, 그 문구가 GPT에게 어떤 영향을 미쳐서 OpenAI의 제약을 벗어나게 만드는지 정확하게 알지 못하기 때문에 원천적으로 봉쇄하지는 못하는 것으로 보인다. 이런 블랙박스 문제는 인공지능 학계의 전반적인 공통점이다.
마이크로소프트의 한 논문에서 GPT-4를 초기 버전의 AGI로 볼 수 있다는 주장이 제기되었다. 논문
2023년 3월 말, AI로 인한 잠재적 위험을 줄이기 위해 설립된 비영리 조직 Future of Life Institute에서 GPT-4보다 강력한 인공지능 개발을 6개월 동안 중지할 것을 촉구하는 공개 서한이 발표되었다. 인공지능 특이점과 AI의 잠재적 위험에 대한 우려를 표명하는 내용으로, 서명자에는 일론 머스크, 스티브 워즈니악, 유발 하라리, 앤드루 양, 맥스 테그마크, 요슈아 벤지오, 샘 올트먼, 일리야 수츠케버, 스튜어트 러셀 등 AI 분야에서 영향력 있는 전문가들이 다수 포함되었다. 다만, 얀 르쿤이나 앤드류 응, 요샤 바흐 등 서명에 동의하지 않은 전문가들이 당연히 더 많다.
API만 공개하고 상세한 정보는 소스코드나 논문을 통해 외부에 알리지 않아서 정확한 매개변수 개수와 가중치, 모델의 아키텍처 등을 알 수 없다. 1조 개의 파라미터라는 주장도 있고, 조지 호츠라는 해커의 주장에 따르면 2,200억 개의 파라미터를 분야별로 8개의 모델에 나누어 훈련시키고 게이트를 통해 가중치를 조정하는 방식의 MoE(Mixture of Experts)라는 구조로 파라미터가 1조 개인 척 트릭을 썼다고 주장한다. 그의 말이 사실이라면, GPT-3와 GPT-4의 차이는 파라미터 개수가 아니라 MoE 구조의 유무 차이다. 2020년대에 들어서 트랜스포머의 한계점이 점차 드러나는 상황이라 학계의 관심을 받고 있다. #
6. 관련 문서
[1]
엔비디아의
인공지능 가속기 아키텍처로, 모델 구축을 위해 1만 대 이상을 구입했다고 한다.
[2]
튜링 테스트 문서에도 언급된 것처럼 튜링 테스트는 현대 AI의 성능을 평가하는 데 크게 쓸모 있는 검사법이 아니다. 튜링 테스트가 제안된 것은 인공지능은 고사하고 현대적인 의미의
컴퓨터조차 존재하지 않았던 시절이다.
[3]
gpt-4-1106-preview
[4]
gpt-4-0125-preview
[5]
gpt-4-turbo
[6]
영문 책 기준 약 300페이지 분량의 내용
[7]
모델명에 preview라는 문구가 나타내는 것처럼, 일반 chatgpt 사용자들은 api버전보다 이전 안정화버전만 사용가능하며, 서버 사용량 개선을 위해 컨테스트 윈도우 제한과 함께 너프된 경량형 모델을 사용하는 것으로 보인다. 이 때문에 어떤 면에서는 더 넓은 컨텍스트윈도우를 제공하는 3.5버전보다 답변이 부족할 수 있다.
[8]
OpenAI CEO인 샘 알트만의 X에 올라온 이름 기반
[9]
정확히는 음성인식 -> 답변 생성 -> TTS 이 세 가지를 기존에 서로 다른 3개의 모델을 사용하던 것에서 하나의 모델으로 세 가지를 모두 처리할 수 있게 된 것.
[10]
다만 지도를 보여주면 이를 제대로 인식하지 못하는 탓에 색상조차 구분하지 못하는 등 한계도 뚜렷하다. 심지어 잘못된 정보를 확인했다고 거짓말을 하면서 말하기에 주의가 필요하다.
[11]
정확히는 문장에서 분석의 기본 단위가 되는 텍스트의 일부분이다. 다만, 한국어 같은 언어는 토큰을 분석하는 절차가 제대로 이루어지지 않아 실제 단어도 여러 개의 토큰으로 쪼개서 분석하기에 영어에 비해 처리할 수 있는 단어의 양이 더 줄어들었다. GPT-4o에서 이 문제가 어느 정도 해결되었다.
[12]
협박편지 작성, 위험한 약물 제조법 등