Sora


{{{#!wiki style="margin:0 -10px -5px" {{{#000,#fff {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-6px -1px -11px" {{{#000,#e5e5e5	제품군
서비스	ChatGPT · OpenAI(인공지능)
모델	GPT-1 · GPT-2 · GPT-3( GPT-3.5) · GPT-4( GPT-4 Turbo · GPT-4o · GPT-4o mini) · GPT-5(개발 중) o1(o1-preview · o1-mini)
	DALL·E · Codex · CLIP · Whisper · Voice Engine · Sora · SearchGPT
관련 인물
일론 머스크 · 샘 올트먼 · 미라 무라티 · 일리야 수츠케버 · 안드레 카파시 · 그렉 브록만 · 다리오 아모데이
관련 기업
마이크로소프트

}}}}}}}}}}}}}}} ||

생성형 인공지능
{{{#!wiki style="margin:-0px -10px -5px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"	유니모달 모델 기반
텍스트	[[소설\| 소설 ]] NovelAI · AI Dungeon · AI Novelist · GPTRPG
대화형	[[챗봇\| 챗봇 ]] ChatGPT · Microsoft Copilot · Gemini · CLOVA X · Cue: · Inflection AI · Mistral AI · Grok
대화형	[[언어 모델\| 언어모델 ]] GPT-1 · GPT-2 · GPT-3 · GPT-4 · o1 · LLaMA · Gemma · Claude · Phi · Exaone
코드	[[코드#컴퓨터 소프트웨어\| 코드 ]] GitHub Copilot · Devin · Phind
이미지	[[그림 인공지능\| 그림 ]] Midjourney · DALL·E · Artbreeder · NovelAI Image Generation · Stable Diffusion · FLUX.1 · Gaugan2 · Dream by WOMBO · Adobe Firefly · Deep Dream Generator
	[[영상 인공지능\| 영상 ]] Stable Video · Sora · Meta Movie gen · Lumiere · Veo · Runway AI · Luma Dream Machine · Kling AI
	[[모델링\| 모델링 ]] LATTE3D
오디오/소리	[[음성\| 음성 ]] A.I.VOICE · DeepVocal · Voice Engine
오디오/소리	[[음악\| 음악 ]] Suno · Stable Audio · Udio · AIVA · SOUNDRAW · keeneat · Mix.audio · vio.dio
멀티모달 모델 기반
대화형	+이미지 Exaone 2.0 · Samsung Gauss
	+음성/이미지 GPT-4o · ~~GPT-5~~ · Gemini
	+에이전트 Claude 3.5 Sonnet
행위/동작	[[지능형 에이전트\| 에이전트 ]] Apple Intelligence · ~~Google Jarvis~~
행위/동작	[[인공지능 로봇\| 체화 ]] Tesla optimus · Google RT-X · Project Gr00t	}}}}}}}}}

Sora
<colbgcolor=#ddd,#010101> 분류	동영상 생성 인공지능
개발사	OpenAI
관련 링크	모델 소개, 기술 보고서

1. 개요2. 역사3. 기능4. 학습원리5. 시연 영상6. 문제점

6.1. 저작권 침해 가능성6.2. 성능 한계

7. 반응

[clearfix]

1. 개요

OpenAI가 개발하여 2024년 2월 15일에 공개한 동영상 생성 인공지능. 하늘을 뜻하는 일본어 소라([ruby(空, ruby=そら)])에서 이름을 따왔으며, 그 이름은 무한하고 창의적인 잠재력에 대한 아이디어를 불러일으키는 모습을 묘사한다고 한다. 움직이는 물리적 세계를 이해하고 시뮬레이션하는 인공지능을 지향하며, 실세계의 상호작용이 필요한 문제 해결을 하는 모델을 목적으로 한다.

GPT와 마찬가지로 트랜스포머 아키텍처를 사용한다. 비디오와 이미지를 패치(Patch)라고 하는 작은 데이터 단위의 모음으로 표현하며, 각 패치는 GPT의 토큰과 유사하다고 한다. #

2. 역사

2024년 2월 15일에 OpenAI 홈페이지를 통해 공개되었다.[1]

2024년 4월 기준 일반인이 이용할 수는 없으며, 언젠가는 이용이 가능해지겠지만 당장은 아니라고 한다. 일부 전문가들만 이를 이용하고 있다고 한다. #

2024년 3월 13일 월스트리트 저널의 보도에서 미라 무라티 OpenAI 최고기술책임자( CTO)가 “올해 (대중들이) 소라를 이용할 수 있을 것이며 이는 몇 달 후가 될 수도 있다”라고 밝혔다. #

2024년 3월 25일, OpenAI 공식 블로그 글을 통해 일부 전문가들이 Sora를 이용해 생성한 작품들을 공개했다. #

3. 기능

기존 동영상 생성 모델에 비해 매우 사실적인 영상을 생성하고, 자연스러운 카메라 움직임을 묘사할 수 있다. 상상 속의 장면이라도 이를 묘사하는 프롬프트를 입력하면 그 모습의 표현이 가능하다. 대상 영속성이 구현된 동영상이 생성되는데, 어떤 사물이 배경을 지나가도 사물이 배경에 특별한 영향을 끼치지 않으면 그 배경이 변하지 않는다.

입력한 이미지와 프롬프트를 토대로 한 애니메이션 생성이 가능하다.
주어진 동영상의 앞뒤에 자연스럽게 이어지는 새로운 동영상을 생성할 수 있다. 사람이 그림을 그리는 동영상에는 그 그림이 더 그려지는 모습도 생성할 수 있다. 여러 개의 다른 동영상이 똑같은 장면으로 끝나게 할 수 있다.
끊기지 않는 무한 루프가 이어지는 동영상 생성이 가능하다.
주어진 동영상의 배경만을 바꿀 수 있다.
두 개의 아예 다른 동영상 사이에 완벽히 이어지는 동영상을 생성할 수 있다.
이미지 생성이 가능하다.

4. 학습원리

기존의 RunwayML과 같은, 즉 Text-to-Video와 학습 방식이 완전히 다르다. 기존의 Text-to-Video는 예를들어 "강아지가 점프했다 착지하는 영상을 만들어봐"라고 했다면, 해당 영상 1분짜리 픽셀 덩어리를 통으로 던져주고 "이것이 바로 강아지가 점프하는 영상이라는 픽셀 덩어리 영상이니, 이걸 가지고 학습해서 앞으로 비슷하게 만들어라"라는 방식이었다.[2]

하지만 Sora는 프레임 단위로 일일이 다 쪼개서 각각 텍스트 묘사와 다시 비교해봐서 검증한 다음 영상으로 이어붙이는 방식으로 수작업 노가다를 하는 방식이다. 토큰 및 패치화에 관한 소라의 학습 원리 설명

Sora는 쉽게 말해 모든 영상을 프레임 단위로 일시정지해서 일일이 Text와 Video와 비교한 다음, 그 다음 장면에 나와야 할 상황의 프레임이 Text와 Video와 매치하는지를 반복하는 슈퍼 노가다를 한 방식이다. 안될공학 - 더쉽게 설명한 소라의 학습 원리

즉, "강아지가 점프했다 착지하는 영상을 만들어봐"고 한다면, 일단 처음의 수백 프레임은 각각 일일이 "강아지가 이 영상의 초반 프레임에서 점프하는 장면이 보여지면 강아지가 X,Y축 위치가 어디쯤 되어야하고 조명과 각도가 어떻게 되어야하는지"를 일일이 텍스트와 비교하고 그 다음 영상 프레임으로 넘어간다음, 그 다음 수백 프레임은 각각 일일이 "이 영상 몇번째 프레임 대에서는 강아지가 중력으로 인해 Y축 위치가 감소할 것이므로 앞발 각도가 이렇게 묘사되어야 하고 자세가 어떻게 바뀌며 그게 텍스트와 매치가 되는지"를 토큰 단위로 다 쪼개 일일이 검증해서 합치는 방식이다. 결국 이러한 방식의 학습 방법으로 인해, Sora는 단순히 Text-to-video가 아니라 영상 속 물리 법칙 및, 조명 등 실제 현실 세계에서 작용하는 세상의 법칙들을 학습할 수 있었다고 설명하고 있다.

위와 같은 학습 방식의 특성상 Sora의 설명 페이지에는 아예 대놓고 세계 시뮬레이터(World Simulator)라는 표현을 직접적으로 명시하고 있다.
Sora의 학습원리를 설명하는 페이지에서는 학습 방식 자체를 더 연구해서 개선할 것이 아니라, 컴퓨팅 파워만 키워도 결과가 더 좋게 나온다며 1배, 4배, 32배 GPU 사용시 각각 출력물을 비교하고 있다.
즉, 더 많은 GPU와 데이터 센터 등이 확보되어 연산능력이 훨씬 좋아진 Sora를 자율주행 자동차 혹은 인공지능 로봇 등에 탑재시킨다면 갑자기 자동차 또는 로봇에 뇌와 눈이 동시에 달린 파급효과가 생길 수도 있게 된다.
이 때문에 Ethan Caballero is Busy라는 X (구 트위터) 페이지에 올라온 Scale is all you need - AGI is coming이라는 밈이 뜨겁게 재조명받고 있다.

5. 시연 영상

시연 영상 목록 {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-8px -1px -11px"	<table width=100%>
Introducing Sora — OpenAI’s text-to-video model	Worldweight Official Music Video-Made by August Kamp with Sora

air head · Made by shy kids with Sora	Beyond Our Reality · Made by Don Allen Stevenson with Sora

Underwater Sora Exploration · Made by Josephine Miller with Sora	Gold Record Teaser · Made by Paul Trillo with Sora

Deflated · Made by shykids with Sora

}}}}}}

[clearfix]

6. 문제점

오픈AI의 최고기술책임자(CTO)인 미라 무라티가 월스트리트 저널과의 인터뷰에서 Sora에 사용한 학습 데이터에 대해 "사용한 데이터의 세부 내용은 모르지만, 그것들은 공개된 것 혹은 라이센스가 있는(licensed) 데이터들이다."[3] 라고 대답하여 큰 문제가 되었다. # 이에 기자가 "그러니까, 유튜브의 동영상이요?", " 페이스북, 인스타그램에서는요?" 등을 재차 질문했으나, 무라티는 계속 말을 더듬고 돌러다가 결국 "나도 사실 정확히 무슨 데이터로 훈련시켰는지 모른다."고 어물쩡 넘어갔다.

명색이 한 회사의 CTO라는 사람이 자사의 AI 솔루션에 사용한 훈련 데이터가 정확히 뭔지를 모른다고 언론 인터뷰에서 말하는 것 자체도 문제지만,[4] 만일 유튜브 영상과 같이 라이센스가 있는 영상 및 이미지 데이터를 Sora의 훈련에 사용한 것이 사실이라면 이는 명백한 저작권 침해이다. 이미 OpenAI는 ChatGPT와 관련하여 언론사들, 작가들 등으로부터 다수의 저작권 소송을 당하고 있는데, 이번에는 그 이상의 소송을 맞을 수도 있는 것이다.

6.2. 성능 한계

아직까진 불규칙하고 난잡한 동영상을 완벽하게 생성하는데 무리가 있는 것으로 보인다. 예를들어 유리가 깨지는 현상같은 초기조건에 따라서 결과가 무한에 가깝게 만들어지는 현상은 제대로 묘사하지 못하며, 여러 요소가 비일관적이고, 복잡다단한 상호작용을 묘사하는 것에는 상대적으로 약한 모습을 보인다.

7. 반응

2월 17일, Sora 발표 이후 Adobe의 주가가 하루 만에 7.41%, 금주에 12% 급락했다. 믿기 힘든 가짜 도쿄…어도비 끌어내린 오픈AI

중국의 보안업체 겸 인터넷 업체인 치후360의 CEO인 저우홍이(周鴻祎)는 소라 등장으로 인간 지능에 가까운 인공범용지능(AGI) 구현에 필요한 기간이 10년에서 1~2년으로 단축될 것이라는 코멘트를 남겼다. #

그 외에 온갖 부작용 및 사건 사고 또한 빈번하게 벌어질 것이라는 우려도 크다. 가령 정치적인 목적으로 허위 영상을 만들어 시중에 배포하면 굉장히 심각한 문제를 일으킬 수 있기 때문.

[1] 영상 공개 후, 오디오 생성 AI를 개발하는 기업들이 생성 오디오를 붙이기도 했다. 가우디오랩 #, 일레븐랩스 # [2] Runway Gen-2로 만든 영상을 봐도 알겠지만 이렇게되면 뭔가 초현실적인 영상이 만들어진다(...) [3] "I'm just not going to go into the details of the data that was used, but it was publicly available or licensed data.” [4] 물론 이는 추후 소송을 회피하기 위한 말돌리기일 가능성이 크다.

Sora

1. 개요

2. 역사

3. 기능

4. 학습원리

5. 시연 영상

6. 문제점

6.1. 저작권 침해 가능성

6.2. 성능 한계

7. 반응

분류