mir.pe (일반/어두운 화면)
최근 수정 시각 : 2023-06-15 12:19:24

Dreambooth


파일:teaser_static.jpg
실제로 Dream Booth 개발을 발표한 논문에서의 예시 이미지 귀엽다!

1. 개요2. 상세3. 같이 보기

[clearfix]

1. 개요

2022년 구글 보스턴 대학교 연구진에 의해 개발된 text to image 방식의 이미지 생성 모델. 파인튜닝(Fine-tuning) 기법의 하나로, 이미 학습된 모델로부터 특정 피사체를 추가 데이터를 투입하여 파라미터를 업데이트 하는 기술인데, 적은 수의 이미지만으로 기존의 모델을 오염시키는 것 없이 학습이 가능하기 때문에 개인이 더 손쉽게 파인 튜닝을 가능케 한 기술이다.

연구진은 이 연구를 깃허브에 공개하여, 누구나 접근해서 확인할 수 있다: 해당 연구

2. 상세

기존에도 자연어에 기반하여 이미지를 생성해내는 기술은 있었지만, 기존에 있는 존재를 적절하게 이미지에 섞여들어가게 하는 것은 매우 어렵거나 운에 기대는 일이었다. 하지만 이러한 목적은 미리 훈련된 모델이 특정 작업 또는 데이터 세트에 맞게 조정하여 달성할 수 있으며, 이를 파인 튜닝(Fine-tuning) 기법이라고 한다. Input 데이터로 특정 대상이 포함할 수 있도록 계층을 추가 또는 제거하거나 대상 작업의 클래스 수와 일치하도록 출력 계층을 변경하는 등의 사전 훈련된 모델의 아키텍처를 수정하게 되면 다양한 배경과 상황 속에서 해당 대상에 해당하는 피사체를 맥락에 맞게 생성해낼 수 있는 것이다.

이전에는 이렇게 이미지 기반의 AI 모델에서 파인튜닝 기법을 사용하기 위해서는 이미지 모델 생성만큼은 아니라도 수백장에서 많으면 수천장 정도의 이미지의 학습이 필요했지만, Dreambooth는 그렇게 많은 이미지가 필요하지 않으며, 이러한 이미지 학습 과정에서 기존 모델의 오염[1]이 덜하다는 것이 장점이다. 즉, 단 몇 장의 이미지만으로도 파인튜닝이 가능하며, 조건이 좀 제한적이긴 하지만 극단적으로는 한 장만 갖고도 파인튜닝이 가능하다.

파일:dreamboo.png

연구진에서 제시한 Dreambooth의 개요. 그림과 같이 기존의 t2i 모델, 학습하고자 하는 대상의 이미지 몇 장, 대상을 지칭하는 토큰인 [V][2]를 갖고 Dreambooth를 통해 Fine-tuning 하면, 이 토큰 [V]에 대한 학습이 된 새로운 t2i 모델이 결과로 나온다.

Stable Diffusion의 환경에 잘 적용되어 일반적인 Stable Diffusion 구동 툴인 Web UI에서도 아예 별도의 확장프로그램이 있을 정도이다. 당연하지만, colab이나 런팟에서도 구동이 가능하다.

getimg.ai에선 온라인으로 Dreambooth를 이용할수있지만 유료로 요금제별 생성할수있는 이미지와 학습시키려는 이미지의 장수 제한이 있다. 당연히 무료 계정은 지원하지 않는다.

3. 같이 보기


[1] 과적합이나 language drift 같은 문제들 [2] 이 토큰은 매유 유니크 한 것이어야 한다. 즉, 기존의 모델에서 학습되었던 단어들과 겹치면 안 된다.