mir.pe (일반/어두운 화면)
최근 수정 시각 : 2024-10-21 07:49:01

영상 인공지능

파일:관련 문서 아이콘.svg   관련 문서: 생성형 인공지능
,
,
,
,
,

인공지능
인공지능 기계학습 인공신경망 딥 러닝
인공지능 - 인공지능 구현을 위한 몇 가지 기술이 존재한다.
기계학습 - 많은 매개변수를 넣어주면 모델이 스스로 규칙을 학습하는 방식의 인공지능 구현 방법이다.
인공신경망 - 인간의 뉴런 구조를 본떠 만든 기계 학습 방법론이다.
딥 러닝 - 입력층과 출력층 사이에 있는 은닉층에 인공 뉴런을 여러 겹 쌓고 연결한 인공신경망 방법론 중 하나이다. 즉, 단일층이 아닌 실제 뇌처럼 다층 구조로 되어있다. 21세기에 와서는 (인공신경망=딥러닝)이라고 이해해도 무방하다.
인지 컴퓨팅 - 기계학습을 이용하여 특정한 인지적 과제를 해결할 수 있는 프로그램 또는 솔루션을 이야기한다.
뉴로모픽 컴퓨팅 - 인공 신경망을 하드웨어적으로 구현한 것이라고 생각하면 된다.

생성형 인공지능
{{{#!wiki style="margin:-0px -10px -5px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"
유니모달 모델 기반
텍스트 [[소설|
소설
]] NovelAI · AI Dungeon · AI Novelist · GPTRPG
대화형 [[챗봇|
챗봇
]] ChatGPT · Microsoft Copilot · Gemini · CLOVA X · Cue: · Inflection AI · Mistral AI · Grok
[[언어 모델|
언어모델
]] GPT-1 · GPT-2 · GPT-3 · GPT-4 · o1 · LLaMA · Gemma · Claude · Phi · Exaone
코드 [[코드#컴퓨터 소프트웨어|
코드
]] GitHub Copilot · Devin · Phind
이미지 [[그림 인공지능|
그림
]] Midjourney · DALL·E · Artbreeder · NovelAI Image Generation · Stable Diffusion · FLUX.1 · Gaugan2 · Dream by WOMBO · Adobe Firefly · Deep Dream Generator
[[영상 인공지능|
영상
]] Stable Video · Sora · Meta Movie gen · Lumiere · Veo · Runway AI · Luma Dream Machine · Kling AI
[[모델링|
모델링
]] LATTE3D
오디오/소리 [[음성|
음성
]] A.I.VOICE · DeepVocal · Voice Engine
[[음악|
음악
]] Suno · Stable Audio · Udio · AIVA · SOUNDRAW · keeneat · Mix.audio · vio.dio
멀티모달 모델 기반
대화형
+이미지
Exaone 2.0 · Samsung Gauss
+음성/이미지
GPT-4o · GPT-5 · Gemini
+에이전트
Claude 3.5 Sonnet
행위/동작 [[AI 에이전트|
에이전트
]] Apple Intelligence · Google Jarvis
[[인공지능 로봇|
체화
]] Tesla optimus · Google RT-X · Project Gr00t
}}}}}}}}}


1. 개요2. 역사

1. 개요

영상 인공지능(映像 人工知能, Video AI)은 생성형 인공지능 기술의 한 분야로 영상 데이터를 분석 처리, 생성하는 딥러닝 알고리즘을 말한다., 트랜스포머, 잠재 확산 모델 아키텍처 등을 사용한다.

2. 역사


영상 인공지능의 역사는 그림 인공지능의 역사를 뒤따라가는 모습을 보인다.

2023년 이전의 인공지능 영상은 대체로 그림 인공지능의 생성 결과물을 이어붙이는 방식이어서 일관성이 몹시 떨어지는 모습을 보였다. 2023년 Runway사의 runway gen1과 gen2가 처음으로 t2v 모델의 가능성을 보여준 후 생성형 영상 인공지능의 역사가 본격적으로 시작되었지만 일관성이 떨어지는 문제는 여전히 제대로 극복하지는 못했다.

영상 인공지능이 대중적인 인지도를 얻게 된 시점은 2024년부터였다. 이 새로운 시대의 시작을 알린 것은 OpenAI의 sora였는데, Sora는 여러모로 달리2에 비견할만한 영상 ai계의 분기점이었다고 할 수 있다. 당시 최신 모델이었던 runway gen2에 결여 되어있는 현실성과 일관성을 갖추고 있었기 때문이다.

Sora는 발표는 되었으나 공개되지 않았으며 다른 영상 인공지능 개발사의 개발속도와 투자에 박차를 가하는 촉매제 역할을 하였다.

이후 runway gen3가 발표되고 미국과 중국의 여러 개발사가 연달아 영상 인공지능 기술을 공개하면서 2024년은 영상 인공지능의 실질적 원년이 되었다.

2024년 현재 서비스죄는 주요 영상 인공지능 서비스로는 runway, kling, minimax, luma dream machine등이 있으며 공개되지 않은 것 중에는 메타의 Meta movie gen과 Open AI의 Sora가 있다.