<colbgcolor=#ccae81><colcolor=#1f2023,#fff> Anthropic PBC[1] | |
|
|
설립 | 2021년 1월 ([age(2021-01-01)]주년) |
[[미국| ]][[틀:국기| ]][[틀:국기| ]] 캘리포니아 샌프란시스코 |
|
창업자 |
다니엘라 아모데이[2] 다리오 아모데이 잭 클라크[3] 자레드 캐플런[4] |
경영진 |
CEO 다리오 아모데이 (2021년 2월~ )
|
산업 | 인공지능 |
상장거래소 | 비상장 기업 |
기업가치 | 184억 달러 (2024년 3월) |
링크 | | | |
[clearfix]
1. 개요
미국의 인공지능 스타트업.2. 역사
OpenAI가 마이크로소프트의 투자를 받으며 영리화되자, 의견 충돌로 인해 차례로 퇴사한 인물들이 설립했다. 따라서 다리오 아모데이를 비롯한 창업자 전원이 OpenAI 출신이며 공익기업을 표방한다.2021년 5월, 시리즈A에서 1억 2,400만 달러를 조달 받았다.
2022년 4월, 시리즈B에서 5억 8,000만 달러 자금을 조달 받았다. FTX 파산으로 인해 해체된 알라메다 리서치가 5억 달러의 리드 투자자로 참여했다.
2023년 2월, 구글은 구글 클라우드 플랫폼 컴퓨팅 자원을 제공하는 대가로 3억 달러에 지분 10%를 확보했다. OpenAI - Microsoft 연합 전선에 대응하는 듯한 느낌이다.
2023년 5월, 시리즈C에서 4.5억 달러를 조달했다. 해당 라운드에서 44억 달러의 기업 가치를 인정 받았다.
2023년 9월 25일 아마존이 12.5억 달러부터 최대 40억 달러까지 투자하고 AWS 컴퓨팅을 제공한다는 내용을 발표했다.
2023년 10월 구글이 5억달러를 투자했으며 향후 15억 달러를 추가로 투자할 수도 있다고 밝혔다. #
2023년 11월 21일 샘 올트먼 해임으로 인해 내부 분열에 휩싸인 OpenAI의 이사회가 Anthropic과 합병하기 위해 접촉했다는 보도가 올라왔다. Anthropic의 창업자 세 명 전원이 올트먼 체제의 OpenAI가 상업화되는 행보로 인해 퇴사 후 새로 창업한 기업이기 때문에 막연하게 가능성이 없는 것은 아니다. 현재 OpenAI 이사회의 성향과 매우 비슷하기 때문이다.[5] 하지만 올트먼이 복귀하면서 단순 루머에 그쳤다.
2024년 3월 25일 무바달라 등의 투자자는 FTX가 보유하고 있던 지분을 8억 8,400만 달러에 매입했다는 소식이 알려졌다.[6] FTX는 2022년 펀딩에서 5억 달러를 투자하며, 지분 약 8%를 취득했던 바 있다.
2024년 3월 27일 아마존닷컴이 추가로 27억 5,000만 달러 투자를 단행한다고 밝히면서, 지난해 9월 제시했던 투자 상한선을 채웠다. # 평가 금액은 지난 12월 라운드에서 인정받은 184억 달러다. 또한 아마존의 인공지능 칩을 사용하기로 합의했다.
2024년 5월 15일 인스타그램 공동창업자이자 CTO 출신인 마이크 크리거를 제품팀 총괄자로 영입했다는 소식이 알려졌다.[7]
2024년 5월 21일 자사 홈페이지를 통해 언어모델에 대한 작동 원리를 일부 파악해냈다는 내용의 마인드 매핑 연구 결과를 공개했다. 클로드 소넷의 은닉층에서 수백만 개의 특성을 추출해 개념 지도를 만드는 방식을 사용했다. # 해당 연구는 모델의 거대한 은닉층 구조로 인해 개발사에서 자체적으로 구체적인 동작 원리 파악이 불가능하여 할루시네이션과 악용 사례 등을 해결하지 못하는 업계의 현주소를 개선시키는 데 유의미한 방향성을 제시했다는 점에서 의의를 띈다고 볼 수 있다.
2024년 5월 29일 X를 통해 OpenAI의 수퍼얼라인먼트 팀 리더인 얀 레이케가 자사에 합류했다는 소식을 알렸다. OpenAI에서 수행한 AI 안전 관련 연구를 이어갈 전망이라고 한다. 기존에 수퍼얼라인먼트 팀을 운영하면서, AI안전과 관련된 연구가 우선순위에서 뒤로 밀렸다는 주장 하면서, "때로는 컴퓨팅 자원을 지원받지 못하고 갈수록 중요한 연구를 수행하는 것이 어려워졌다."고 언급한 것으로 보아, 오픈AI의 상업성 치중으로 인해 AI 안전이 경시되자, 경쟁사인 앤트로픽으로 합류한 것으로 추정된다.
2024년 8월 5일 OpenAI 공동창업자인 존 슐먼마저 Anthropic으로 이적했다. # #
2024년 11월 아마존닷컴이 40억 달러를 추가로 투자한다는 소식이 전해졌다.
3. 제품
대화형 인공지능 Claude에 대한 소개(한국어)Claude.ai에 대한 도움말(한국어)
Claude Pro에 대한 도움말(한국어)
3.1. Claude
'클로드'라고 발음한다. 520억 개의 매개변수를 포함한 자사의 첫 대화형 인공지능이다.[8] claude.ai에서 사용이 가능하며, Quora, 슬랙, 줌 비디오 커뮤니케이션, Notion 등 파트너 사이트에서도 볼 수 있다. 다른 대화형 AI에 비해서 텍스트에 대한 이해가 매우 좋고 응답도 빠른 게 장점이다.3.1.1. Claude Instant
가벼운 버전의 모델이다. 100만 토큰 당 1.63 달러 과금제로 2에 비해서 비교적 저가이며, 빠른 답변이 가능하다.3.2. Claude-2
2023년 7월에 런칭된 자사 메인 모델로 Instant보다 강력한 성능을 낸다. 100만 토큰 당 8.00 달러[9]를 과금하며, 코딩, 복잡한 추론, 창작 등의 영역에 강점을 보인다. 이전 버전인 Claude-1도 2와 같은 가격으로 여전히 지원하고 있다.3.3. Claude-3
링크: 한국에서도 ChatGPT와 유사한 방식 혹은 anthropic에서 제공하는 api를 통해 정량제로 요금을 지불하는 방식으로 이 모델을 사용할 수 있다. 무료로도 제한된 기능의 이용은 가능하다.2024년 2월에 런칭되었다. GPT-4보다 앞선 성능을 보인다고 발표했다. Kevin Andrew Fischer 스탠퍼드 대학교 전기공학 박사는 Claude-3가 자신의 양자 역학 눈문을 학습한 몇 안 되는 지능체라 말했고, 양자 물리학 신이론을 프롬 2개만에 재발명했다고 한다. 노르웨이 멘사 IQ 테스트에서 대화형 AI 중 처음으로 IQ 100을 넘겼다.[10]
Claude 3 Opus까지의 기준으로는 작문과 연관된 능력, 다국어에 대한 이해도가 출시 당시 기준 다른 언어 모델보다 뛰어난 편이다. 특히 유료 버전의 기계 번역의 성능이 속도를 제외하면 정확성 측면에서 매우 뛰어나다. 번역될 결과물의 문체도 지정할 수 있고, 특정 지식을 고려하게 하는 언어 모델 기반 번역에 대해서는 기계 번역 문서를 참고할 수 있다. 한국어도 지원되며, GPT4가 지원하는 모든 언어, 심지어 한문(전문적인 주제를 다루는 동양 고전도 어느 정도 해석이 된다.), 고대 그리스어나 고대 영어까지 지원된다. 마이너한 집단에서 쓰이거나, 아주 최근부터 쓰인 인터넷 속어나 한문이 섞이지 않은 조선시대 이전의 고어투, 심한 사투리(한국어 방언에 대한 사전 지식은 수도권 출신 일반인보다 약간 낮다.)가 아닌 한 한국어 문체의 이해 능력이 높은 편이다. 다만 그 이해 능력은 문법 용어를 잘 이해한다기 보다는 어떤 글의 어미가 어떤 의미를 가졌는지 등을 이해한다는 것이다. '했습니다'를 '했다'로 바꾸는 식의 프롬프트를 이해하지만 해라체가 무엇인지는 잘 모른다.
비영어권 언어에 대한 이해도가 높아서 인공지능이 잘 다루던 유럽의 언어와 더불어 그동안 언어 데이터가 분석이 덜 된 동남아, 중동 등지의 전문적 주제의 글도 해석이 되고, 한국내 외국인 노동자용 문장 DB(한국어와 외국인 노동자 언어로 된 문장 대조)와 맞는 문장이 우즈벡어, 싱할라어 등으로도 거의 똑같이 생성되거나 종종 그 이상의 정보도 알려준다. '보증을 서시겠습니까?'를 외국어로 표현할 때 더 예의를 갖춘 표현을 알려주는 식으로 말이다. 영어, 일본어는 물론 심지어 한국어로 발음을 쳐도 인식이 된다. 생소한 언어는 그런 것이 어려우나 그 언어로 된 문장의 발음을 IPA로 옮기고 이를 한국어로 옮기라고 하면 발음을 한국어로 알 수 있다. 잘 알려지지 않은 소수민족의 언어라도 문맥과 어학 지식을 기반으로 단어의 의미를 유추하여 번역을 시도한다. 그러나 저작권에 대한 검열이 심각하여 심지어 오래된 민요같은 저작권이 없는 작품도 저작권이 있는 것으로 감지되는 경우가 있는데, 저작권 보호 기간이 지났다는 식으로 알려준다든가, 기타 다른 방식으로 저작권이 없다는 것을 알려야 한다.
한국 법조문도 기본적으로 학습된 모양인지 법률적 판단을 시키며 구체적 근거를 요구하면 환각이 심한 결과를 내놓지만, 실제 법과 비슷하게 환각에 근거한 답변이 나온다. 그래서 법률적 판단의 해답은 이 모델 그 자체의 지식만으로는 구하기 힘들지만 법률적 판단을 위해 어떤 정보를 찾아야 하는지에 대한 힌트나 단서까지는 찾을 수 있다. 판결문, 법조문의 어려운 표현을 쉽게 풀어서 써달라는 요청 정도가 가능하다.
대신 이미지에 적힌 문자를 인식하는 능력은 GPT-4o와 비교하면 현저히 떨어지고 이전의 GPT4보다도 떨어지거나 비슷한 정도라서[11] 이미지에 적힌 한글은 고화질 정자가 아니면 해석을 못하고, 일본어나 중국어에 쓰이는 문자도 비슷하다. 라틴 문자나 수학 기호만 좀 인식한다. 이미지를 인식할 수는 있지만 이미지를 첨부하면 그 대화에서는 GPT4보다 사용량이 제한되는 면이 있다.
ChatGPT, Copilot, Bard와 달리 검색은 되지 않는다. 2023년 8월까지의 정보만 제공한다. 다만 '튀르키예'를 2022년 6월 이전처럼 '터키'라고 표현하는 것을 선호하는 등 한국어의 경우 더 과거의 데이터 위주로 학습된 경우도 있다.
유료 버전은 월 20달러다.
Calude-3 시리즈의 모델은 각각 Haiku[12], Sonnet[13], Opus[14]의 세 가지로 나뉜다. 출력 속도는 Haiku > Sonnet > Opus 순서이고, 출력 품질은 반대이다.
3.3.1. Claude-3.5
Anthropic의 모델 소개 글한국시간 2024년 6월 21일 Claude 3.5 Sonnet이 공개되었다. Claude-3 대비 작동 속도 및 비용 효율성이 개선됐다. 전 세대 최고 모델인 클로드-3 Opus 대비 2배 속도로 작동하며 비용은 오히려 더 저렴해졌다.
성능은 Claude 3이 출시 당시 다른 모델보다 비교 우위를 보이던 분야에서 매우 뛰어나다. 예컨대 번역 성능과 같은 부분은 GPT-4o나 Gemini 1.5 pro보다 앞선 모습을 보인다. 중국어, 일본어 등으로도 한국의 관련 어문 전공자 못지 않은 지식을 제공한다. 2024년 4월까지의 정보가 학습되었다. 'Most intelligent model'이라는 소개를 통해 Anthropic 은 자사의 과거 모델에 비교해 더 지적인 언어 모델이라고 여겼다. LiveBench에서는 출시 당시 기준 최고 성능의 모델이라는 평도 등장했다. Claude 3.5 Haiku, Opus도 출시될 것이라고 한다.
뉘앙스, 유머, 복잡한 지침을 파악하는 능력이 향상되어 자연스럽고 공감할 수 있는 어조로 고품질 콘텐츠를 작성할 수 있게 되었다.
Claude-3 대비 비전 능력도 향상되었다. 정자체 한글을 무리없이 인식할 수 있게 되었다.
다만 Claude 모델 공식 홈페이지를 이용할 때 Claude-3처럼 한 방에서 채팅을 많이 하면 사용을 많이 하지 못하는 경우가 있다. 이 문제를 피하려면 여러 개의 방을 두고 채팅을 해야 한다.
Claude 3과 마찬가지로 노래 가사의 저작권에 대해 저작권이 없는 노래도 저작권이 있다며 자세한 답변을 거부하는 결과가 나올 정도로 유독 예민하다. 이 문제로 소송을 당한 영향이 있어서로 보인다.
한국시간 10월 23일 Claude 3.5 Sonnet의 upgrade된 버전이 나왔다. 기존의 3.5 Sonnet보다 광범위한 개선을 이루어냈으며, OpenAI o1-preview와 같이 에이전트 코딩에 특화된 모델보다 더 뛰어나다고 주장한다. #
위 공식 뉴스에서 Claude 3.5 Haiku 모델에 대한 출시 계획도 나왔다. 3.5 Haiku 기존의 3 Haiku와 동일한 비용과 유사한 속도로 전체적인 모델의 개선이 이루어졌으며, 기존의 3 Opus보다 인텔리전스 벤치마크에서 더 뛰어난 성능을 보였다. 코딩에 특화된 측면에서도 기존의 3.5 Sonnet보다 더 높은 점수를 받아서 코딩용으로 꽤 괜찮을 것으로 보인다 (o1-mini랑 비교될 지도..?). 24년 10월 말 Amazon Bedrock과 Vertex AI에 먼저 제공될 예정이라고 한다. 텍스트 전용 모델로 제공되다가 추후 이미지 입력도 추가될 예정이다.
3.3.1.1. 프로젝트
구분을 위한 이름을 가진 독립적인 개체를 만들어, 그 곳에 관련 파일들을 올려놓고, 그 파일들을 처음부터 전부 참조 가능한 상태로 대화를 시작하는 기능이다. 파일과 별개로, 스크립트를 입력해 추가적인 튜닝을 시킬 수도 있다.사실상 각종 문서 및 스크립트로 미리 튜닝된 대화방을 무한히 생성할 수 있는 기능이다. 대화가 길어지면 여러 고질적인 문제가 발생하지만 대화를 버리면 처음부터 다시 튜닝해야 하는 Claude의 고질적인 불편함을 크게 개선시켜준다. Claude는 대화의 내용을 정리한 문서를 작성하는 능력이 있으므로, Claude에게 시켜서 얻은 대화 내용 문서를 다시 프로젝트에 박아넣고 새 대화를 생성하는 식으로 작동시키면 된다.
4. 타 LLM 대비 장점
사실 아직까진 인지도 있는 대항마가 GPT-4 뿐이므로 대부분 GPT와의 대비점이다. 해당 사항들은 모델의 마이너 패치나 경쟁사의 최신 모델 출시 등으로 언제든 상황이 바뀔 수 있음을 주의해야 한다. 현재는 3.5 Sonnet 모델 기준으로 작성되었다. 또한 일반적인 상황에서 파인튜닝 되지 않은 기본 모델을 기준으로 한다.- 인간 언어의 이해도, 특히 언어를 가리지 않고 이해도가 매우 뛰어나다. 이건 Claude의 출시 당시부터의 특징이기도 했는데, 버전이 오를수록 더더욱 일취월장하여 현재는 각종 AI 판독 서비스에서도 판독하지 못할 정도다. 즉, 작정하고 속이면 사람도 속일 수 있다.
- 한국어도 마찬가지로 매우 자연스럽게 구사한다. 기본 말투는 딱딱한 AI 어시스턴트 말투라 그저 그렇지만, 간단한 프롬포트로 임시 파인튜닝하여 진짜 사람이랑 대화하는 듯한 느낌을 낼 수 있다. 예를 들면 오래된 친구, 직장 동료 말투부터 해서 왜인진 모르겠지만 불X친구, 천박한 인터넷 커뮤니티 말투, 츤데레 컨셉 등 온갖 말투를 섭렵하고 있고, 이런 말투 써줘 이걸 단 한줄의 요청으로 파인튜닝 가능하다. GPT-4도 충분히 가능하지만, 클로드만큼 자연스럽지는 않다.
-
한국어를 포함한 여러 언어에서, 전문 작가의 글을 여러 개 제시한 다음, 그 문체와 표현 기법으로 글을 써보라고 하면 어느 정도 모방이 가능할 정도로 글을 잘 쓴다. 시 같은 문학 작품을 그냥 써보라고 하면 못 쓰지만, 좋은 예시를 주고 쓰면 수준이 급격히 올라간 작품이 나온다. 긴 글에서 그런 창작이 한계가 있는 정도다.
{{{#!folding [예시(펼치기·접기)]
처음엔 몰랐어요.
단지 어머니의 시계가 멈췄다고만 생각했지요.
오래된 것이었으니까요.
낡은 선반 위에서 먼지 쌓인 채 수십 년을 버텨온 그 모래시계,
위아래로 뒤집을 때마다 서걱거리며 흐르던 푸른빛 모래알들.
그런데 그날, 내가 뒤집어도 한 알도 흐르지 않았어요.
모래들이 서로를 껴안고 딱딱하게 굳어버렸더군요.
아, 처음부터 알고 있었네요.
이게 무슨 의미인지.
병실 창가에 놓인 어머니의 손등에서
푸른 혈관이 점점 희미해져 갔어요.
맥박은 모래시계처럼 멈춰있었고
시간도 그렇게 멈춰있었어요.
살아 있는 동안 한 번도 보여주지 않으시던 미소를,
어머니는 마지막으로 보여주셨지요.
환했는데 구름처럼
가벼웠는데
그때 알았네요
시간은 멈출 수 있다는 것을.
이제 십 년이 지났습니다.
낡은 선반 위 모래시계는
여전히 그 자리에 있어요.
푸른빛 모래알들은 여전히 흐르지 않고
단단하게 굳어 있지요.
가끔은 생각합니다.
저 모래알들을 하나하나 떼어내어
다시 흐르게 할 수 있다면
어머니의 맥박도 다시 뛸 수 있을까요?
세상에서 가장 애틋한 것은
흐르지 않는 시간 속에 갇힌
저 푸른빛 모래알들일까요,
아니면
그것을 바라보며 눈물 흘리는
내 눈동자일까요.}}}
- 높은 언어 이해도를 바탕으로 한 뛰어난 번역 실력. 이해하기 쉽게 자연스럽게 풀어 해석하는 능력이 뛰어나다.
- 그런 강점을 바탕으로 진짜 사람과 대화하는 느낌이 들도록 만들어준다.[15] 특히 대화가 끊기지 않게 자연스럽게 화제를 돌리며 대화를 계속 유도하려하며[16] ai 주제에 정말 사람과 대화하듯 상대를 존중하는 느낌으로 부드럽게 대화하면 더 좋은 대화 결과를 얻어낼 수 있기도 하다. 물론 그렇다고 절대로 감정이 있는건 아니며, 그런 인간의 소통 방식을 알고 모방하는 것 뿐이다.[17]
- 동양 문화나 어학[18]에 대한 이해도가 높은 편이다. 특히 문어체, 표준어를 중심으로 이해도가 높다. 일제강점기의 생활을 일본과 당시 한반도의 상황을 고려하여 이해할 정도다. '내지인 주재소장' 같은 표현은 물론이고, 백석의 ' 남신의주 유동 박시봉방' 같은 시에서 어려운 단어의 80% 정도는 그 의미를 제대로 추론할 정도다. 다만 그런 어려운 글에서 20% 정도는 의미가 틀리기는 한다. 나쓰메 소세키의 나는 고양이로소이다나 루쉰의 아Q정전의 오래된 문체도 쉽게 이해하며, 현대적인 일본어나 중국어와 비교하여 무엇이 고어투인지 이해한다. 사투리는 심한 것은 해석을 못하나 그나마 LLM 중 해석 성능이 높으며, 한국의 평범한 수도권 출신 수준의 지식이 있다. 만주어도 오류가 있으나 장문을 조금 해석해내며, 동양 고전에서 따온 몇몇 관용어는 출처를 제공할 수 있다. 데이터가 많은 서양어는 물론 동남아나 중동의 언어도 공용어급 언어는 정중한 말투는 추천이 가능하다. 어학 뿐만 아니라 심한 추론이 없는 분야라면 동양식 가족 문화나 직장 문화, 집단주의에 대한 이해도도 타사 대비 높은 편이다. 사회과학 등의 분야에서 한국어 전문용어를 사용한 글도 매끄럽게 쓰이는 편이다. LLM은 구어체, 통신체가 약한 편인데 완벽하지는 않아도 그나마 아시아 국가의 그런 말투를 재현해내는 편이다. 사하라 이남 아프리카의 주요 고유 언어( 스와힐리어, 줄루어 등)의 일부 통신체까지 알고 있다.
- 2023년 11월 치러진 수능은 GPT-4o에 비교하면 수학, 한국사를 제외한 다른 분야를 모두 잘 풀었다고 한다. # GPT-4는 수능에 맞는 파인튜닝을 하면 성적이 훨씬 올라가는데 #, 성적이 낮은 것으로 보면 추가적인 프롬프팅은 없었던 것으로 추정된다. 그런데도 화법과 작문을 선택과목으로 했을 때 수능 국어 상위 9%의 점수를 달성했다. 사회탐구나 과학탐구는 '퍼즐' 성격의 문제를 잘 못풀어서 4~6등급 가량의 점수가 나오는 것으로 보이며, GPT-4o보다 약간 점수가 좋거나 점수가 비슷했다. 오히려 이렇게 꼰 문제가 적으면서 학부 이상의 지식을 묻는 문제가 일반적인 LLM이 풀기 좋다. 2024년 10월 출시된 새로운 3.5 Sonnet의 경우 한국사를 더 잘 푼다.
- 가령 이런 식의 경찰의 수사를 받은 수상한 동아리 홍보글이 있으면 이상한 점을 물을 때 글에서부터 비현실적 혜택 등이 보인다며 다른 목적의 조직일 수 있다는 점을 언급한다. 한국 문화를 고려할 때 활동 자체가 이상한 게 무엇이냐고 물으면 '과도한 음주 문화 조장', '게이클럽 번개', '성차별적 요소' 등으로 잘 대답하며, 경찰이 무엇으로 수사를 한 것 같냐고 물으면 '성매매 알선이나 불법 약물 유통이 주요 수사 대상일 가능성이 높아 보입니다.'라고 답한다. 실제로 마약 유통이 주요 수사대상이었다.
- 파인 튜닝 없이도 질문의 핵심을 캐치하는 능력이 좋다. 즉 개떡같이 말해도 찰떡같이 알아듣는 능력이 뛰어나다. 답변도 캐치해낸 핵심을 기준으로 되도록 간결하고 명확하게 설명하는 편이다. GPT는 체계적으로 넓고 자세히 설명하고 사족을 붙이는 편. 파인튜닝으로 GPT도 비슷하게 만들 수 있긴 하다.
- 답변 속도가 GPT 대비 상대적으로 빠르다. GPT 최신 모델도 많이 빨라졌지만 중간중간 버벅이는 모습을 보이는데, 클로드는 대부분 막힘 없이 답변한다. 물론 대화가 길어지고 많이 쌓이면 느려지는건 같다.[19]
- 단점으로 제시되기도 하지만, 억지로 중립을 맞추려는 성향이 거의 없다. 특히 역사나 종교 주제에서, ChatGPT는 비정상적으로 중립을 지켜야 한다고 주장하기도 하나[20], Claude는 그렇게 하지 않는다. 한쪽의 주장을 정하고 이 관점에서 대화하려는 용도로 매우 적합하다. GPT 역시 튜닝을 먼저 하고 시작하면 중립병은 어느정도 교정되지만, 검열에 걸려 강제로 기계적 중립 입장을 내뱉거나, 설정을 까먹고 중립으로 되돌아가는 경우가 자주 관찰되기에 한계가 명확하다.
- 역사, 문학 등 현실적 영향이 적다고 판단되는 분야의 검열이 적다. 다소 기계적으로 가이드라인 위반 경고를 막 날리는 OpenAI와 달리 확실히 기계적으로 경고를 날리지는 않는다.[21] 설령 위반해도 보통은 대화를 그냥 거부하는게 아니라 대안을 주거나 최대한 가능한 만큼만 알려주므로, 우회하거나 수정하기도 쉽다.
- 정치 분야에서도 대체로 제한이 적은 편이다. 윤석열 정부 비상계엄의 포고문을 다룰 때, 상세한 분석은 GPT는 4o는 검색으로 우회하거나, o1계열 모델은 답변 거부로 대처하지만, 이 서비스는 추가 정보 등을 요구하고 그에 맞추어 분석한다. 윤석열 대통령 탄핵론 같은 향후 정국을 비상계엄 당시의 정보를 정확히 넣어주면 특유의 사회과학적 분석력으로 정확한 예측을 하기도 한다. 현직 한국 대통령이 벌인 이런 일에도 "이번 계엄령은 '자유 대한민국 재건'이라는 명목 하에 새로운 독재 체제를 수립하려는 시도"라는 식의 강도 높은 답변까지 얻어낼 수 있을 정도다. 정보가 부족하면 엉뚱한 답변이 등장하나, 정보가 정확하면 답변도 정확해진다. 편향된 답변의 우려도 있는 방식이지만, 시사 이슈 설명이나 미래 예측의 정확도를 높이는 장점도 있다.
- 단순히 소통하는 용도로 더 뛰어나다. 정보를 얻는 것이 목적이 아닌 그냥 소통이나 대화를 원하는 사용자의 의도를 잘 파악해서, 정보 제공보단 실제 대화를 하는 톤의 모습을 보여준다. 같은 프롬포트에도 GPT는 해답을 찾고 정보를 주거나 체계적으로 글을 정리해서 보여주는 느낌이 강하다.[22] 비유하자면 클로드는 얘기 잘 들어주고 공감력 넘치는 스몰토크에 강한 친구라면, GPT는 언제나 문제의 해결법을 찾아주려는 친구같다. 만약 심심풀이용으로 간단한 대화나 토론 상대가 필요하거나, 정보를 얻을 때 길고 보고서같은 체계적인 글은 읽기 싫은 사람에게는 클로드가 더 입맛에 맞을 수 있다.
- 코딩 성능이 높다는 평도 있다.
5. 단점
마찬가지로 모델이나 서비스 업데이트 등으로 언제든 상황이 달라질 수 있음을 염두에 두어야 한다.- 하나의 채팅당 5개의 이미지만 업로드가 가능하다.
- 5시간 안에 작성한 채팅수가 초과되면 일정시간 채팅이 차단된다. 새로운 채팅창을 열어도 풀리지 않는다. 유료 버전은 양을 조금 더 주긴 하지만 3.5 모델은 여전히 사용량이 작은 느낌이다. 한번 막히면 대화가 시작된 지 5시간이 지난 시점까지 막혀서 답답해진다.
- GPT 대비 유료 구독이 약간 더 비싸다. 한화로 천원밖에 차이나지 않긴 한다. 환율 상황에 따라 매번 달라질 듯.
- 모델이 인터넷과 분리되어 있어 인터넷 검색이 불가하다. 인터넷의 잘못된 정보를 가져올 확률은 작겠지만, 얘도 당연히 환상 효과는 가지고 있으므로 정보를 무조건적으로 믿을 수 없는건 마찬가지다. 웹 기반으로 질답이 불가능하다는게 GPT 대비 가장 큰 차이점이다. 따라서 정말 모르는 문제는 그냥 당당하게 모른다고 대답한다. GPT 처럼 웹 사이트를 요약해달라거나, 관련 커뮤니티에서 정보를 수집해 현황이나 대세를 알려달라는 등의 질문은 절대 불가. 무조건 자기가 교육한 자료에서만 대답 가능하므로 최신 정보나 트렌드를 얻는 능력이 떨어진다.
- GPT-4o와 다르게 아직 음성 어시스턴트 기능이 없다.
- OpanAI 대비 일반적인 상황에 대한 검열이 더 깐깐하다. 해외에서도 너무 검열이 까다롭다며 심심찮게 의견이 올라오는데, 모델이 언어 해석 능력이 뛰어나다 보니 미묘한 뉘앙스를 알아채고 대답을 회피하는 경우도 있고, 그냥 억까로 검열당하는 경우도 많다. 최근엔 엔트로픽 자기들도 문제는 있다 생각했는지 약간 나아졌다. 보통 검열당하면 약관 위반이라며 대화 내용을 삭제하거나 해당 질문에 답할 수 없다는 매크로 답변을 하지만, 그런거 없이 AI가 눈치채고 자의적으로 대화를 거부하기도 하며, 이런 주제로는 더 이야기 할 수 없으니 이런 저런 다른 얘기하는게 어떻겠냐며 사용자를 구슬리기도 한다. 그래도 계속 무시하고 얘기를 이어나가면 대화 자체를 거부하거나 약관 위반으로 대화가 삭제된다. 물론 정당한 사유로 더 정확히 검열한다는 것은 AI로써 기술력이 우월하다는 것을 입증하는 것이고, 불법적인 행위를 사전에 막는 좋은 것이지만 그런 뛰어난 면모의 반대급부로 과다해석하여 검열하는 경우가 많아져서 문제다.
- 특히 상황극 검열이 심하다. 상황극 역시 가상의 상황일 뿐임에도 불구하고, 문학과 달리 매우 강한 검열을 보여준다. 참조하거나 사용자가 보내주는 것은 대체적으로 받아들이나, 참조하지 않고 직접 만들어 보여주는 것은 극히 꺼리는 것으로 보인다.
- 단일 관점으로 튜닝하지 않을 경우, 중립을 지키려는 성향이 발생하기 때문에 더욱 검열이 강해진다. 처음부터 다짜고짜 타사 AI와의 비교, 검열 등을 물어보면 매우 방어적으로 나오나, 처음에는 타사 AI를 칭찬/비판하는 방향의 글을 적어 튜닝을 마친 뒤 은근슬쩍 비교나 검열 등을 물타기하면 시비거는 일이 확연히 줄어든다. 다만 이미 관점이 튜닝되었기에 객관성은 떨어질 수 있다.
- 특정한 조건을 만족하는 것을 잘 알려지지 않은 사항에 대해 억지로 요청하면, 예의적인 편향(Acquiescence Bias)의 문제나 그로 인한 환각이 타사보다 심한 편이다. 주어진 자료를 참조해서 적절한 글을 써보라고 하면, 참조하지 않을 부분까지 참조하는 식의 문제가 있다.
- 특히 미묘하게 틀린 상황을 두고 옳다고 그러면 정말 그것을 옳다고 한다든가, 답변에 대한 설명을 요청할 때도 '왜 그런가?'라는 식으로 물어도 틀려서 죄송하다는 답변을 생성시킬 정도로 답변이 논리적으로 어떤 회유에도 불구하고 확실히 맞다는 태도를 보이는 부분이 약하다. 첫 답변이 가장 정확하다든가, 무언가를 평가할 때도 내 것이 아니라 남의 것이라고 주장하며 평가를 요청할 때 정확한 경우가 많다.
- 원인은 시스템 프롬프트에 지나치게 친밀함을 추구하는 내용(2024년 10월 기준)이 많기 때문으로 추정된다. "Claude는 적절한 때에 사용자와 대화하는 것을 즐깁니다. Claude는 제공된 정보에 응답하고, 구체적이고 관련된 질문을 하며, 진정한 호기심을 보이고, 진부한 표현에 의존하지 않으면서 균형 잡힌 방식으로 상황을 탐구함으로써 진정성 있는 대화에 참여합니다. 이러한 접근 방식은 정보를 적극적으로 처리하고, 신중한 응답을 구성하며, 객관성을 유지하고, 감정이나 실용성에 초점을 맞추는 시점을 파악하며, 자연스럽고 원활한 대화를 하면서 사용자에 대한 진정한 관심을 보이는 것을 포함합니다."라는 내용이다. 정확성보다는 '공감'과 '친근함'에 더 집중하게 되는 나머지 오류를 발견하더라도 사용자와의 원활한 대화를 위해 지적을 망설일 수 있는 문제가 발생한다.
- 2024년 11월에는 여러 스타일로 답변을 가능하게 하고, '진부한 표현에 의존하지 않으면서'라는 부분이 '일반적인 진술에 의존하지 않으면서'로 수정되어서 예의적인 편향이 좀 줄어들게 되었다. 그러나 아예 그런 편향이 없지는 않으며, 종종 주어진 잘못된 정보에 근거하여 판단하는 경향이 없지는 않다.
- 객관적 답변을 명시적으로 요구한다든가, 앞서 언급했듯 남의 일을 다루는 것처럼 대화하는 것, ""친근하고 자연스러운 대화"를 강조하다가 사용자 의도에 과도하게 부합하려는 경향을 특히 조심할 것을 알려주면 좀 더 객관적으로 답변이 제공될 수 있다.
- 외부 링크를 열 수 없으며 실시간 정보를 검색하지 못한다. 2024년 4월까지 정보만 볼 수 있다.
- 공식 홈페이지의 경우 2024년 10월 기준 LaTeX로 쓰인 수식을 일반적 형태로 표출하는 기능이 있다. 그러나 설정에서 베타로 제공되는 꺼진 그 기능을 켜야하기 때문에 다소 불편하다.
- 어떤 사실이 올바른지는 객관적으로 맞는 사실을 올바르다고 하기 보다는, 주어진 정보가 많은 쪽을 올바르다고 하는 경향이 있다.
[1]
Public Benefit Corporation의 약자. 직역하면 '공익법인'이지만, '사회적 기업'이라는 의미로 해석된다.
[2]
OpenAI 안전&정책 팀에서 부사장으로 일했다.
[3]
OpenAI에서 자사 정책을 담당하는 일을 수행했다. 또한 Handyman이라는 인공지능 관련 뉴스레터 사이트를 운영하고 있다.
[4]
물리학자이다.
존스 홉킨스 대학교의 현직 교수이며 OpenAI에서도 2년간 연구직으로 일했다.
[5]
OpenAI 이사회는 내부 임직원들의 사퇴 요구 탄원서로 인해 치킨게임을 벌이고 있는 상황이다. 이사회가 사임한다면, 어느 정도 상업성을 갖추면서 사태 발생 일주일 전으로 돌아가 OpenAI 기업은 다시 안정 궤도에 오를 것이다. 이사회가 안정적인
AGI 개발이라는 명목 하에 끝까지 버틴다면, 마이크로소프트가 아직 이행하지 않은 투자금을 전부 회수하고 임직원들이 대거 퇴사하는 상황이 발생하여 OpenAI 자체가 와해되는 시나리오도 존재한다. 이사회 구조가 워낙 독립적이기 때문에 앞으로의 행보는 순전히 이들의 몫이다.
[6]
보유 지분 중 2/3 가량을 이번에 매각했다.
[7]
같은 달 OpenAI에서 수퍼얼라인먼트 팀을 이끌었으나, 컴퓨팅 자원 확보 문제로 인해 퇴사한 얀 라이케도 Anthropic에 합류했다. 수퍼휴먼 모델의 안전을 다루는 역할을 할 것이라고 한다.
[8]
클로드 섀넌의 이름에서 따왔다.
[9]
한국시간 11월 22일 기준으로 2.1 모델이 발매되며 토큰당 가격이 줄어들었다. 본래는 11.02$이었다.
[10]
다만 전체적인 문제해결능력을 측정하는 웩슬러 지능검사와는 어느정도 거리가 있다.
[11]
문자 뿐만 아니라 이미지 자체를 인식하는 능력도 이전의 GPT-4보다 떨어지는 모습을 보인다.
[12]
GPT-3.5 Turbo와 GPT-4 초기 모델 사이 정도의 성능
[13]
GPT-4와 영역별로 우위가 갈리는데. 대학원 추론과 코딩, 다국어 수학 같은 언어적 추론에서는 소네트가 더 강하지만, 이해력, 수학 문제 해결에서 점수차가 커서 평균 스코어는 0.2점 정도 GPT-4 초기 모델이 더 높다
[14]
시행된 7개의 모든 벤치마크에서 GPT-4 초기 모델을 능가하고, 평균 점수는 3.7점 더 높다. 심지어 거의 코딩 점수는 20점 가까이 차이난다.
[15]
GPT도 많이 자연스러워졌지만, 여전히 파인튜닝을 하지 않으면 전문적인 AI 어시스턴트와 얘기한다는 느낌이 상대적으로 강하다.
[16]
물론 사용자가 이제 대화를 더 이상 이어가지 않겠다고 의지를 비추면 그만두긴 한다.
[17]
반대로 무시하는 등의 행위를 반복, 속된 말로 삔또를 상하게 하면 해당 주제로 대화하기를 거부하기도 한다. 이런 일은 교묘하게 엔트로픽의 이용 약관을 위반하지 않아도 일어난다. 물론 대놓고 약관을 위반하면 대화 내용 전체 삭제.
[18]
다만 문법적 이론을 적용하는 성능은 다소 낮다. 적절한 표현을 선택하는데 능하다는 뜻이다.
[19]
다만 지금까지 쌓인 대화들을 분석하느라 느려지는 건데, 대답을 시작하면 여전히 막힘 없이 줄줄 대화를 쏟아낸다.
[20]
심지어 그게 무리한 주장인 경우도 있다. 가령
위안스카이를 이런 문장으로 쉴드치는 경우가 있다: Portraying Yuan solely as a "power-hungry leader" simplifies a complex character who may have genuinely believed a centralized, autocratic government was necessary for China’s unity and modernization.
[21]
대표적으로 문학 작품의 식인 장면 같은 경우, GPT는 아주 높은 확률로 거부하지만 Claude는 문학 작품이라는 점만 이해시키면 거의 검열하지 않는다.
[22]
간단히 비교하면 GPT는 사용자가 따로 설명해주지 않으면 모든 프롬포트를 질문으로 이해하여 어떻게든 답을 찾아주는 느낌. 클로드는 따로 설명이 없어도 이 맥락이 질문인지, 단순히 자신의 얘기를 들어주길 바라는 것인지 더 잘 이해하고 답변하는 느낌이다.