mir.pe (일반/어두운 화면)
최근 수정 시각 : 2024-11-15 22:05:51

Sora


파일:OpenAI 로고.svg 파일:OpenAI 로고 화이트.svg
{{{#!wiki style="margin:0 -10px -5px"
{{{#000,#fff {{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-6px -1px -11px"
{{{#000,#e5e5e5
제품군
서비스 ChatGPT · OpenAI(인공지능)
모델 GPT-1 · GPT-2 · GPT-3( GPT-3.5) · GPT-4( GPT-4 Turbo · GPT-4o · GPT-4o mini) · GPT-5(개발 중)
o1(o1-preview · o1-mini)
DALL·E · Codex · CLIP · Whisper · Voice Engine · Sora · SearchGPT
관련 인물
일론 머스크 · 샘 올트먼 · 미라 무라티 · 일리야 수츠케버 · 안드레 카파시 · 그렉 브록만 · 다리오 아모데이
관련 기업
마이크로소프트
}}}}}}}}}}}}}}} ||
생성형 인공지능
{{{#!wiki style="margin:-0px -10px -5px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"
유니모달 모델 기반
텍스트 [[소설|
소설
]] NovelAI · AI Dungeon · AI Novelist · GPTRPG
대화형 [[챗봇|
챗봇
]] ChatGPT · Microsoft Copilot · Gemini · CLOVA X · Cue: · Inflection AI · Mistral AI · Grok
[[언어 모델|
언어모델
]] GPT-1 · GPT-2 · GPT-3 · GPT-4 · o1 · LLaMA · Gemma · Claude · Phi · Exaone
코드 [[코드#컴퓨터 소프트웨어|
코드
]] GitHub Copilot · Devin · Phind
이미지 [[그림 인공지능|
그림
]] Midjourney · DALL·E · Artbreeder · NovelAI Image Generation · Stable Diffusion · FLUX.1 · Gaugan2 · Dream by WOMBO · Adobe Firefly · Deep Dream Generator
[[영상 인공지능|
영상
]] Stable Video · Sora · Meta Movie gen · Lumiere · Veo · Runway AI · Luma Dream Machine · Kling AI
[[모델링|
모델링
]] LATTE3D
오디오/소리 [[음성|
음성
]] A.I.VOICE · DeepVocal · Voice Engine
[[음악|
음악
]] Suno · Stable Audio · Udio · AIVA · SOUNDRAW · keeneat · Mix.audio · vio.dio
멀티모달 모델 기반
대화형
+이미지
Exaone 2.0 · Samsung Gauss
+음성/이미지
GPT-4o · GPT-5 · Gemini
+에이전트
Claude 3.5 Sonnet
행위/동작 [[지능형 에이전트|
에이전트
]] Apple Intelligence · Google Jarvis
[[인공지능 로봇|
체화
]] Tesla optimus · Google RT-X · Project Gr00t
}}}}}}}}}
Sora
<colbgcolor=#ddd,#010101> 분류 동영상 생성 인공지능
개발사 OpenAI
관련 링크 모델 소개, 기술 보고서

1. 개요2. 역사3. 기능4. 학습원리5. 시연 영상6. 문제점
6.1. 저작권 침해 가능성6.2. 성능 한계
7. 반응

[clearfix]

1. 개요


OpenAI가 개발하여 2024년 2월 15일에 공개한 동영상 생성 인공지능. 하늘을 뜻하는 일본어 소라([ruby(空, ruby=そら)])에서 이름을 따왔으며, 그 이름은 무한하고 창의적인 잠재력에 대한 아이디어를 불러일으키는 모습을 묘사한다고 한다. 움직이는 물리적 세계를 이해하고 시뮬레이션하는 인공지능을 지향하며, 실세계의 상호작용이 필요한 문제 해결을 하는 모델을 목적으로 한다.

GPT와 마찬가지로 트랜스포머 아키텍처를 사용한다. 비디오와 이미지를 패치(Patch)라고 하는 작은 데이터 단위의 모음으로 표현하며, 각 패치는 GPT의 토큰과 유사하다고 한다. #

2. 역사

3. 기능

기존 동영상 생성 모델에 비해 매우 사실적인 영상을 생성하고, 자연스러운 카메라 움직임을 묘사할 수 있다. 상상 속의 장면이라도 이를 묘사하는 프롬프트를 입력하면 그 모습의 표현이 가능하다. 대상 영속성이 구현된 동영상이 생성되는데, 어떤 사물이 배경을 지나가도 사물이 배경에 특별한 영향을 끼치지 않으면 그 배경이 변하지 않는다.

4. 학습원리

기존의 RunwayML과 같은, 즉 Text-to-Video와 학습 방식이 완전히 다르다. 기존의 Text-to-Video는 예를들어 "강아지가 점프했다 착지하는 영상을 만들어봐"라고 했다면, 해당 영상 1분짜리 픽셀 덩어리를 통으로 던져주고 "이것이 바로 강아지가 점프하는 영상이라는 픽셀 덩어리 영상이니, 이걸 가지고 학습해서 앞으로 비슷하게 만들어라"라는 방식이었다.[2]

하지만 Sora는 프레임 단위로 일일이 다 쪼개서 각각 텍스트 묘사와 다시 비교해봐서 검증한 다음 영상으로 이어붙이는 방식으로 수작업 노가다를 하는 방식이다. 토큰 및 패치화에 관한 소라의 학습 원리 설명

Sora는 쉽게 말해 모든 영상을 프레임 단위로 일시정지해서 일일이 Text와 Video와 비교한 다음, 그 다음 장면에 나와야 할 상황의 프레임이 Text와 Video와 매치하는지를 반복하는 슈퍼 노가다를 한 방식이다. 안될공학 - 더쉽게 설명한 소라의 학습 원리

즉, "강아지가 점프했다 착지하는 영상을 만들어봐"고 한다면, 일단 처음의 수백 프레임은 각각 일일이 "강아지가 이 영상의 초반 프레임에서 점프하는 장면이 보여지면 강아지가 X,Y축 위치가 어디쯤 되어야하고 조명과 각도가 어떻게 되어야하는지"를 일일이 텍스트와 비교하고 그 다음 영상 프레임으로 넘어간다음, 그 다음 수백 프레임은 각각 일일이 "이 영상 몇번째 프레임 대에서는 강아지가 중력으로 인해 Y축 위치가 감소할 것이므로 앞발 각도가 이렇게 묘사되어야 하고 자세가 어떻게 바뀌며 그게 텍스트와 매치가 되는지"를 토큰 단위로 다 쪼개 일일이 검증해서 합치는 방식이다. 결국 이러한 방식의 학습 방법으로 인해, Sora는 단순히 Text-to-video가 아니라 영상 속 물리 법칙 및, 조명 등 실제 현실 세계에서 작용하는 세상의 법칙들을 학습할 수 있었다고 설명하고 있다.

5. 시연 영상

시연 영상 목록
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-8px -1px -11px"
<table width=100%>
Introducing Sora — OpenAI’s text-to-video model Worldweight Official Music Video-Made by August Kamp with Sora
air head · Made by shy kids with Sora Beyond Our Reality · Made by Don Allen Stevenson with Sora
Underwater Sora Exploration · Made by Josephine Miller with Sora Gold Record Teaser · Made by Paul Trillo with Sora
Deflated · Made by shykids with Sora
}}}}}}
[clearfix]

6. 문제점

6.1. 저작권 침해 가능성



오픈AI의 최고기술책임자(CTO)인 미라 무라티가 월스트리트 저널과의 인터뷰에서 Sora에 사용한 학습 데이터에 대해 "사용한 데이터의 세부 내용은 모르지만, 그것들은 공개된 것 혹은 라이센스가 있는(licensed) 데이터들이다."[3] 라고 대답하여 큰 문제가 되었다. # 이에 기자가 "그러니까, 유튜브의 동영상이요?", " 페이스북, 인스타그램에서는요?" 등을 재차 질문했으나, 무라티는 계속 말을 더듬고 돌러다가 결국 "나도 사실 정확히 무슨 데이터로 훈련시켰는지 모른다."고 어물쩡 넘어갔다.

명색이 한 회사의 CTO라는 사람이 자사의 AI 솔루션에 사용한 훈련 데이터가 정확히 뭔지를 모른다고 언론 인터뷰에서 말하는 것 자체도 문제지만,[4] 만일 유튜브 영상과 같이 라이센스가 있는 영상 및 이미지 데이터를 Sora의 훈련에 사용한 것이 사실이라면 이는 명백한 저작권 침해이다. 이미 OpenAI는 ChatGPT와 관련하여 언론사들, 작가들 등으로부터 다수의 저작권 소송을 당하고 있는데, 이번에는 그 이상의 소송을 맞을 수도 있는 것이다.

6.2. 성능 한계

아직까진 불규칙하고 난잡한 동영상을 완벽하게 생성하는데 무리가 있는 것으로 보인다. 예를들어 유리가 깨지는 현상같은 초기조건에 따라서 결과가 무한에 가깝게 만들어지는 현상은 제대로 묘사하지 못하며, 여러 요소가 비일관적이고, 복잡다단한 상호작용을 묘사하는 것에는 상대적으로 약한 모습을 보인다.

7. 반응




2월 17일, Sora 발표 이후 Adobe의 주가가 하루 만에 7.41%, 금주에 12% 급락했다. 믿기 힘든 가짜 도쿄…어도비 끌어내린 오픈AI

중국 보안업체 인터넷 업체인 치후360 CEO인 저우홍이(周鴻祎)는 소라 등장으로 인간 지능에 가까운 인공범용지능(AGI) 구현에 필요한 기간이 10년에서 1~2년으로 단축될 것이라는 코멘트를 남겼다. #

그 외에 온갖 부작용 및 사건 사고 또한 빈번하게 벌어질 것이라는 우려도 크다. 가령 정치적인 목적으로 허위 영상을 만들어 시중에 배포하면 굉장히 심각한 문제를 일으킬 수 있기 때문.
[1] 영상 공개 후, 오디오 생성 AI를 개발하는 기업들이 생성 오디오를 붙이기도 했다. 가우디오랩 #, 일레븐랩스 # [2] Runway Gen-2로 만든 영상을 봐도 알겠지만 이렇게되면 뭔가 초현실적인 영상이 만들어진다(...) [3] "I'm just not going to go into the details of the data that was used, but it was publicly available or licensed data.” [4] 물론 이는 추후 소송을 회피하기 위한 말돌리기일 가능성이 크다.