🎨 그림 인공지능 관련 소프트웨어 | ||||
{{{#!wiki style="margin:0 -10px -5px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-6px -1px -11px" |
생성형 인공지능 | |||
Artbreeder | DALL·E | Dream by WOMBO | Adobe Firefly | |
Gaugan2 | Midjourney | NovelAI Image generator | Stable Diffusion | |
Galaxy AI | FLUX.1 | |||
학습 방해 프로그램 | ||||
글레이즈 | 나이트셰이드 |
Novel AI 이미지 제너레이터 Novel AI Image Generation |
|
<colbgcolor=#ddd,#010101> 분류 | 그림 인공지능 |
방식 | Text to image |
서비스 개시일 | 2022년 10월 3일 |
사용 프로그램 | NovelAI |
기반 | Stable Diffusion |
관련 링크 | 공식 문서 페이지 |
[clearfix]
1. 개요
NovelAI에서 지원하는 그림 인공지능 프로그램. 제작진 측에서는 보통 NovelAI Diffusion 혹은 NAI Diffusion이라고 칭한다. 2022년 10월 3일 출시됐다.2. 상세
노벨 AI 공식 블로그의 이미지 제네레이터 발표 게시물NovelAI의 이미지 제너레이터는 영국 Stability AI의 지원을 받아 독일 뮌헨 대학교, Runway 등의 연구진이 개발한 오픈소스 이미지 합성 확산 확률 모델(diffusion probabilistic model)인 Stable Diffusion을 기반으로 한다. 이 Stable Diffusion의 소스코드를 NovelAI 측에서 가져다가 개조한 뒤[1] Danbooru의 이미지를 크롤링하여 학습시켜 만들어진 것이 바로 "NovelAI Diffusion"으로, 모에 화풍의 이미지(Anime image) 제작에 최적화되어 있는 것이 특징이다.
원본 Stable Diffusion과는 달리 NovelAI 이미지 제너레이터는 구독형의 클라우드 방식 소프트웨어로, 유료 구독 사용자만 사용할 수 있다.[2]
<colbgcolor=#fff,#1f2023> 구독 플랜 |
페이퍼 Paper |
태블릿 Tablet |
스크롤 Scroll |
오푸스 Opus |
|
텍스트 AI |
<colbgcolor=#fff,#1f2023> AI | Euterpe, Calliope, Sigurd | 모두 | ||
기억력 한계 |
2048 토큰 약 8192자 |
1024 토큰 약 4096자 |
2048 토큰 약 8192자 |
||
텍스트 한계 | 100개 | 무제한 | |||
Anlas 월제공 | 없음 | 1000 Anlas | 10000 Anlas | ||
AI TTS |
무료 100개 |
고급 무제한 |
|||
이미지 제네레이터 | 불가[3] | 가능 |
가능 무제한[4] |
||
실험용 기능 앞서 해보기 |
불가 | 가능 | |||
가격 | 무료 | 10$ | 15$ | 25$ |
무료 체험판은 계획이 없으며, 정기 구독 플랜으로 월 10$의 태블릿(Tablet)[5], 월 15$의 스크롤(Scroll)[6], 월 25$의 오푸스(Opus)[7]가 있다. 다만 주의해야 할 점은 구독 기간이 갱신돼도 구독 Anlas는 쌓이지 않는다. 예를 이전 달에 10000 Anlas에서 사용 후 5000 Anlas가 남은 상태에서 구독이 갱신됐다면 15000 Anlas가 아닌 10000 Anlas로 되어 버린다는 점을 조심하자. 좋든 싫든 가능한 Anlas는 남기지 않고 사용하는 것이 좋다.
다만 미구독 상태에서도 Anlas가 남아있다면 그림 생성 자체는 가능하므로, 미처 Anlas를 다 사용하지 못했거나 비용을 최대한 아끼고 싶다면 구독 기간 갱신 전에 구독을 해제한 뒤 Anlas를 다 사용하고 다시 구독하는 방법도 있다.
모델 자체는 Stable Diffusion을 기반으로 하고 있기 때문에, 접속 시 오픈소스 라이선스인 CreativeML Open RAIL-M의 전문이 출력된다. CreativeML Open RAIL-M은 제4조에서 (NovelAI처럼) SaaS 형태의 서비스 제공을 조건부로 허용하고 있다.
상업적 저작물들을 포함하여 온갖 그림들이 무단 전재되는 사이트인 Danbooru의 데이터를 기반으로 학습된 AI이며 관련해서 저작권 논란이 있다. 관련해서 논란이 불거지자 Danbooru 측은 (우리는) "NovelAI와 무관하며 그들이 하고 있는 일을 지지하거나 용인하고 있지 않다"라고 밝히기도 했다. 자세한 내용은 관련 문서를 참조.
이러한 논란은 2023년 11월 16일, Stable Diffusion XL으로 교체된 V3 버전이 공개되면서 더욱 심화되었는데, 관련 커뮤니티에서 놀림감이었던 V2까지의 평이 무색하게, 환골탈태한 성능으로 주목받았다. 다만 이와 동시에 그와 동시에 데이터 학습을 특정 작가들의 화풍을 더욱 노골적으로 카피하도록 내부적인 알고리즘을 고쳤는지, 특정 게임 관련 스타일을 의도할 경우 공식 게임 로고가 생성물에 그대로 적혀 나오거나(약후방)[8], 작가명 입력 시 해당 작가의 친필 싸인 등이 그대로 생성물에 들어가는 현상 등, 이전의 SD 기반 제너레이터들에서는 잘 일어나지 않는 현상도 빈번하게 일어나고 있다. 즉, NAI의 데이터 무단 학습에 대한 비판 역시 커지고 있는 상황이다.
3. 특징
출처
AI가 그림 그리는 원리 간단하게 설명해줌 | ||
{{{#!wiki style="margin: 0px -10px -5px; min-height: calc(1.5em + 5px)" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -8px -12px -17px" |
}}}}}}}}} |
2022년 10월 3일, 이전부터 오랫동안 개발해온 Stable Diffusion 기반의 이미지 제네레이터 기능을 정식 공개했는데 이 제네레이터의 성능이 사용자들의 예상보다 훨씬 뛰어나 화제를 끌고 있다. 만화풍의 일러스트를 그리는 데 있어선 정식 공개 시기까지 알려져있던 그림 그리는 AI 중 최고봉이라고 봐도 좋을 정도. Style GAN 기반 API 따위는 당연히 압살하며 오히려 이러한 화풍에 있어선 본진이라고 할 수 있을 AI 노벨리스트의 트린아트보다도 뛰어나 이쪽 분야의 게임 체인저 수준이라 평가된다.
이 이미지 제너레이터는 "자동차를 타고 있는 대머리 남자의 사진을 그려줘"나 "영화 대부에 호머 심슨이 등장했다면 어떤 모습일지 그려줘" 식으로 스크립트만 입력하면[9][10] 그에 상응하는 사진이나 그림을 그려주는 프로그램으로, 과거에도 DALL·E 2나 DALL·E mini[11] 등이 꽤 높은 퀄리티를 보여주며 인기를 끌었는데 NovelAI의 경우 만화풍 일러스트를 그리는데 높은 실력을 보이며 인기를 끌고 있다.
개발 중에는 사용자들의 리퀘스트에 따라 크툴루 신화 같은 초현실적인 그림이나 실사체의 그림을 그리는 모습도 보여줬으나, 정식 공개 시점에서는 아니메풍 모델 2개와 테스트 중인 퍼리 모델의 세 가지 모델만 제공하고 있다.[12]
출시한 날 나무위키 실시간 검색어 1위, 트위터 실시간 트렌드에 오르며 여러 커뮤니티에서 화제가 되는 등 폭발적인 인기를 끌었으나 사람이 너무 몰린 탓인지 신규 가입자들의 구독이 막혔다.
이 그림을 그리는 데에는 Anlas라는 화폐가 요구되며, 이는 정식구독을 해 얻거나 구매할 수 있다. $1로 약 500개 정도의 Anlas를 얻을 수 있고, 한번 그림을 그리는 데 5개의 Anlas가 든다는 점을 고려하면 거의 15원에 그림 하나씩을 얻을 수 있는 셈. 다만 그림 중에서 마음에 드는 것을 찾기 위해서는 여러 번 그림을 생성해야 할 수도 있음을 유의해야 한다. 그리고 유료 구독을 해야지만 이 Anlas를 구매할 수 있다.
또는 NovelAI를 유료 구독한다면 매월 일정량의 Anlas가 제공된다. 기본 등급인 Tablet 구독 기준으로 1,000 Anlas가 지급되며, 최고 등급인 Opus 등급($25/달)을 구독하면 매월 10,000 Anlas가 지급된다. 또한 Opus 구독시 Step 값을 28 이하로 설정한 노말 사이즈 이하 그림의 1장 생성은 Anlas를 소모하지 않는다.
다만, Ai가 작업하는 것이다 보니 이 기능도 한계는 적나라하게 드러난다. 대표적으로 손을 잘 못 그리는데, 손가락이 6개가 된다던가 발가락이 6개가 된다던지, 양손이 같은 손이 된다던지, 손가락 비율이 안 맞거나 심지어 팔이나 다리가 3개 이상으로 그려지는 등의 한계가 있다.
유사한 사례로 연어필렛이 물을 거슬러올라가거나, 젓가락 없이 손으로 면을 집어먹는 ai 이미지가 웃음벨이 되었다. 연어의 경우 ai가 문맥을 파악하지 못해 발생한 문제로, 자연어 학습에 대한 연구가 선행되어야 해결될 문제로 보인다. 또, 젓가락의 경우는 이 현상을 분석하여 novelai의 현재 한계에 대해 설명한 글을 보면 ai에게는 사람이 가진 고정관념(상식)이 없기 때문이라고 분석하고 있다. 정리하자면 NovelAI의 한계는 자연어라는 벽에 상식이라는 또 하나의 벽을 넘어야 하는 해결할 수 있을 것으로 보인다.
회사 측에선 NovelAI는 저작권에 위협을 받지 않을 것이라는 자신감을 표하였다. 링크 마블이나 디즈니 등 저작권에 예민하다 유명한 회사들의 캐릭터 이름을 입력했을 때도 그 캐릭터와 유사한 결과물들이 나오는데, 그럼에도 지금까지 조용한 것을 보면 근거 있는 자신감으로 보인다. 글 중간에 ai로 출력한 나이키 로고가 박힌 운동화 그림 있음.
기술의 가능성이나 저작권 논란 등과는 별개로, NovelAI의 디폴트 그림체가 나사 빠진 얼굴묘사와 인성으로 논란이 된 중국의 미소녀게임 전문 일러스트레이터 물거북과 유사하다는 의견도 있다. 물거북의 그림으로 ai그림 판별기를 돌렸을 때 highly로 나오기도 했다. 이 때문에 사실 물거북은 ai라는 우스갯소리도 돌고 있다. 물거북 그림체로 바꾸는 AI그림 근황, ai 그림이라고 인증받은 물거북의 그림체 한편 물거북 본인은 이런 것을 위해 ai가 더 발전해야 한다며 수상한 고릴라 이미지를 올렸다.
앞서 설명했듯이 2023년 말 공개된 NovelAI V3는 어마어마한 진보를 이루었는데, 지금까지 그림 인공지능을 이끌었던 SD Web UI 버전의 각종 모델들을 비웃듯이 무지막지한 성능을 가지고 나왔다. 유출 후 원조 대우도 받지 못한 채 놀림받은 만큼 설욕하려고 칼을 갈아온 것이 아닌가 싶을 정도. 우선 베이스를 SDXL로 갈아치운 만큼 기본 해상도가 크게 올랐으며, 무엇보다 프롬프트 이해력이 매우 상승했다. 예전에는 온갖 기괴한 융합체가 나오는 경우가 많았지만, 지금은 억지로 융합체를 나오게 프롬프트를 꼬아야 할 정도로 구도 및 인체가 정교해졌으며, 다수의 캐릭터들을 지정해도 웬만해서는 구분해낸다. 거기에 후술할 라면 먹는 모습 등 특정 행동부터 고질병인 손과 발, 위아래 뒤집어 그리기 등 각종 문제점들이 크게 개선되었다. 단부루에서 크롤링해온 거대한 데이터셋도 더 제대로 학습해왔는지, 마이너 장르의 마이너 캐릭터들도 어느 정도 인지도가 있어 데이터가 있다면 이해하고 출력할 수 있게 되었다.
단순 모에화뿐만 아니라 애니풍 삽화나 풍경 등도 더욱 제대로 생성할 수 있게 되었다.[15] 거기에 마스터피스, 하이 퀄리티, 배드 아나토미 등 퀄리티 관련 프롬프트나 설정도 정리되고 통합되어 설정에서 간단하게 켜거나 끌 수도 있다. 심지어 저 퀄리티 관련 설정을 해주지 않아도 제법 괜찮은 그림이 생성된다.
사실 Stable Diffusion XL은 이미 공개된 상태였고 많은 자체 제작 2D와 아니메 계열 XL 모델들이 나왔지만, 기존 SD Web UI 버전보다도 크게 나은 결과가 나오지 않아 유저들을 만족시키지 못한 상태였다. 결국 NovelAI 측이 V3를 공개하면서 원조다운 결과를 보여준 셈이다.[16] 그러나 선술했듯이 저 결과를 내기 위해 저작권 및 도용 문제를 거의 무시한 듯한 결과물이 출력되면서 무단 학습에 대한 논란도 더욱 커진 부작용도 가져왔다.
다만 많은 유저들이 V3에 감탄하는 부분은 단순히 캐릭터 및 그림체[17] 재현보다는 바로 프롬프트 이해력과 구도 생성 부분이다. 상기한대로 V3 출시 전 시점과 비교해서 특정 프롬프트를 그림에 포함시키거나 제외하는 정확도가 크게 올랐으며, 그림의 구도도 정교해져서 뭉게지거나 합쳐지는 오류의 빈도도 눈에 띄게 줄어들었다. 심지어 LoRA나 확장 기능 없이는 불가능에 가까웠던 서로 다른 복수의 캐릭터를 공존시키는 것도 척척 해낸다. NovelAI 측이 짜낸 알고리즘의 비결이 풀린다면 정체된 상태인 Stable Diffusion XL은 물론 그림 인공지능의 판도에 다시 한번 큰 영향을 끼칠 것으로 보인다. 거기다 Vibe 기능과 Direction 모드[18]의 도입은 Inpaint의 활용도를 비약적으로 끌어올렸다. 포토샵만 약간 할 줄 알면 손이 많이 가지만 불가능할 것 같은 상황의 그림까지 만들 수 있기 때문.
2024년 9월, V4가 개발 중이라는 언질이 공식 SNS 등에서 나왔다. 한편 새로운 버전을 개발해야 할 이유가 점점 많아지는 것이, NAI V3의 성공 이후 유저들의 미세조정 노하우가 점점 올라가고 새로운 알고리즘이 속속히 등장하면서 NAI V3의 성능이 더 이상 독보적이지 않게 되고 있기 때문이다. 심지어 거대한 단보루 데이터도 2024년 초중반을 기점으로 Huggingface에 풀리기 시작하면서, 인프라만 있다면 누구나 V3 이상의 데이터를 가진 체크포인트를 제작할 수 있게 되어 더 이상 장점이 아니게 되었다.[19] 게다가 V3는 2024년 이후 점점 늘어나는 인기 애니메이션, 게임 신작 등의 데이터를 반영할 수 없기 때문에 데이터 업데이트 차원에서라도 신 버전의 개발이 필요할 것이다. 한편으로는 Stable Diffusion의 독주 체제가 차기 모델 SD3의 실패 및 FLUX.1 등 타사의 고성능 모델의 등장으로 종결되었기에 NovelAI의 차후 모델 선택 역시 관심사로 떠오르고 있다.
4. 사용 가이드
자세한 내용은 NovelAI/이미지 제네레이터/가이드 문서 참고하십시오.5. 논란 및 저작권 등 논쟁
자세한 내용은 그림 인공지능/논쟁과 사건 사고 문서의
논쟁
부분을
참고하십시오.6. 사건 사고
6.1. 이미지 트레이싱 허위 선동
단부루에 올라온 특정 그림의 특징과 유사한 태그로 이미지 생성을 시도할 경우, 높은 확률로 기존 그림을 트레이싱한 수준의 결과물이 나온다는 주장이 있다. AI 그림 근황.trace그러나 이 논란은 처음부터 끝까지 선동으로, 해당 이미지를 만든 사람에 의하면 AI가 태그로 생성한 것이 아니라 원본 그림을 업로드한 뒤 수치가 낮을수록 원본에 가깝게 이미지를 생성하는 Strength 수치를 0.5 정도로 설정하고 돌려서 나온 그림이었다. #1 #2
사실상 자신의 그림을 타인에게 아주 살짝만 리터칭해 달라고 한 뒤, 리터칭한 결과물을 보고 "저 사람이 내 그림을 트레이싱했다."고 주장하는 꼴인 셈이다. 원본 이미지를 던져주고 그것을 원본을 최대한 유지한 상태로 수정하라고 AI에게 시킨다면, 당연히 원본에서 크게 벗어나지 않는, 트레이싱에 가까운 결과물이 나오게 된다. img2img 방식이 아닌 랜덤한 노이즈에서부터 태그로 이미지를 생성한 뒤, 소스나우 같은 곳에서 이미지 검색을 해보면 트레이싱이 될 만한 구도 자체가 존재하지 않음을 알 수 있다. #
6.2. NovelAI 소스코드 유출
2022년 10월 7일 노벨 AI의 소스코드 전부가 유출되어 토렌트 등을 통해 인터넷에 퍼지는 사태가 발생했다. # NovelAI의 소스코드는 내부에서 유출된 것이 아닌 익명의 해커의 제로 데이 공격을 통해 해킹된 것으로 알려졌다. #1 #2상술한 사건으로 유출된 소스코드를 이용해 한 베트남인 개발자가 개인 컴퓨터로 NovelAI를 돌릴 수 있는 WebUI를 제작해 공개했고, AI의 성능을 개선시키는 모드와 기능들이 쏟아져 나오기 시작하며 본격적으로 전세계적인 AI 일러스트 제작 열풍이 시작됐다.
개인 컴퓨터로 NAI를 돌릴 경우 무조건 NVIDIA,[20] 특히 RTX 3000 시리즈 이상 그래픽카드일수록 좋다.[21][22] 권장사양은 RTX 3060 정도이다. GeForce RTX 3080 Ti 기준 1장당 3~4초 정도 시간이 소요되고, 그래픽카드 성능에 따라서는 10분 넘게 걸리는 경우도 있을 정도이며 M1 MacBook Air 또한 CUDA가 없기 때문에 1장에 30초가 소요되어 시간이 그 정도 걸린다면 차라리 NAI를 사용하는 것이 나을 수도 있다. 관련 글
기본적으로 대부분의 Stable Diffusion/NovelAI 구현에서 PyTorch 라이브러리를 사용하고 있으므로, 라데온에서도 이론상 기술적으로 "쓸 수 없다"고는 할 수 없다. 다만 Linux를 깔고 ROCm 기반의 PyTorch 구동환경을 구성해야 하기 때문에 진입 장벽은 상당히 높은 편.[23] 심지어 세대에 따라 설치해야 하는 ROCm의 버젼이 상이하며 아예 지원하지 않는 라데온도 많다. 설치에 성공한다 하더라도, RX 5000 시리즈는 ROCm을 제대로 지원하지 않아 끔찍한 성능을 보여 준다. 그나마 RX 6000 시리즈와 VEGA 시리즈는 괜찮은 편.
유출 이후 일종의 런처로써 이용되던 WebUI의 경우, 설정의 자유도가 다소 높은 펀이며, 최근 업데이트로 NovelAI에 존재하지 않았던 기능을 추가하는 등의 개선을 거쳤다.[24]
지금은 Novel AI 모델에 추가 학습을 한 고성능 모델이 여럿 등장했고, WebUI에서 고성능 모델과 각종 애드온을 사용할 경우 NovelAI보다 훨씬 고품질의 이미지를 생성할 수 있다. 심지어 하이엔드(+nVIDIA 그래픽 카드는 무조건 필수) 컴퓨터가 아니라 클라우드 서버(ex. Google Colab)를 임대해서 돌리는 WebUI기반 플랫폼조차 하이엔드 컴퓨터에서 직접 뽑는 것보단 달릴지언정 NAI보다 고품질의 이미지를 뽑는다. 여기에 추가적으로 이미지를 학습해 원하는 그림체의 그림을 생성하는 하이퍼네트워크라는 기술을 적용할 수도 있고, LoRA(Low-rank Adaptation)라는 새로 나온 더 강력하고 효율적인[25] 학습 기술을 적용하여 특정 캐릭터, 행동, 의상을 일관성 있게 생성할 수 있다. 이로 인해 NovelAI의 이미지 제네레이터가 퇴물이 된 상황. 다만 WebUI의 인터페이스가 굉장히 복잡하기 때문에 진입 장벽이 높은 편이다. 주 기능이라 할 수 있는 스토리 텔링은 지원하지 않는 데다가, 그냥 그림이 어떻게 생길 것인가만 대충 설명하면 알아서 괜찮은 결과가 튀어나오는 NAI에 남아있을 인원 또한 많을 것으로 보인다.
그동안 NAI 업데이트는 퍼리 관련 모델 강화 같은 것만 내놓아서 하라는 건 안 하고 엉뚱한 것만 한다고 비웃음만 당하다가[26], 2023년부터 NovelAI 쪽에서도 일반 모델의 기능을 향상하는 업데이트 계획도 있는 등 놀고만 있지는 않는 모양.[27] 2023년 말부터 업그레이드 버전의 티저가 올라오고 있는데, Stable Diffusion을 일반 SD에서 SDXL로 바꾸는 등 장담한대로 구 NAI와 비교를 불허하는 장족의 발전을 이루었다.
6.2.1. 유출본을 이용한 무료 짝퉁 사이트 등장
Nya AI10월 7~9일경 중국에서 Nya AI라는 이름으로 NovelAI의 이미지 제네레이터 유출 버전을 이용해 만든 사이트가 등장했다. 사이트의 UI도 NovelAI와 동일하며 무료에 계정 가입도 필요가 없다. 단 모종의 연유로 일부 기능은 실행이 불가하다. 따라서 사실상 체험판 역할을 대신한다고 보는 것이 좋다.
10월 9일 오후부터는 한국 인터넷에서도 소식이 퍼졌다. 이용자 폭증으로 일부 시간대에는 그림 하나 만드는 것에도 10초 이상 소모되며 그마저도 다시 시도하라는 메시지가 뜨며 안 되는 경우도 있었다.
10월 16일부터 사이트 운영이 중단된다. @ 사이트 운영을 중단한다고 말했던 16일 오전 1시 10분 경부터 이미지 생성기는 중단되었고, 메인 화면은 서버 구축 방법 설명으로 대체되었다가, 현재는 도메인 자체가 사용되고 있지 않다.
한편 아카라이브에서는 NovelAI의 소스코드를 기반으로 한 곤살레스라는 이미지 제너레이터 기능을 제공하고 있으며, 디시인사이드에도 유사한 기능이 추가되었다.
6.3. 트위치 스트리밍 그림 학습 사건
자세한 내용은 그림 인공지능/논쟁과 사건 사고 문서의
트위치 스트리밍 그림 학습 사건
부분을
참고하십시오.6.4. V3 서비스 이후 서버 폭주
V3의 개선 소식이 입소문을 타고 많은 신규 유저와 복귀 유저가 몰리면서, 피크 시간대에서는 서버에 사람들이 몰려 그 시간 동안에는 로그인이 잘 되지 않거나, 500 에러 메시지가 뜨거나, Generation timed out 메시지와 함께 이미지가 나오지 않거나, 완전히 새까만 이미지가 생성되는 오류가 나타나고 있다. 단순히 사람들이 몰린 것도 있지만 매크로 유저들도 많이 몰린 것도 원인인데, NAI 측에서는 이러한 매크로를 악용해 이미지를 비정상적으로 많이 생성한 유저들과 한 계정을 여러 명이 공유해가면서 사용한 유저들까지 적발했다.이에 대하여 유저들이 서버 폭주에 대응하기 위해 서버 상태를 볼 수 있는 비공식 웹사이트를 만들어냈다.
그나마 2024년 1월부터 NAIV3에 못지 않게 우수한 SDXL 모델인 Pony Diffusion V6과 성능 자체는 밀리지만 아니메 특화 모델인 Animagine XL[28]이 등장했고, 2월에는 저 두 모델을 비롯한 SDXL 전반을 쉽게 활용하게 해주는 WebUI Forge가 등장하면서 NAIV3에 몰렸던 유저들이 다시 분산됨에 따라 비교적 쾌적해졌다. 다만 기본 데이터 규모 및 생성물의 작화 안정성[29] 방면에서는 NAIV3이 압도적인 데다가, 저 모델들을 위한 LoRA 학습에 필요한 데이터 생성을 위해 NAIV3을 사용하는 사람들도 생겨나면서 여전히 서버가 터질 때는 터진다.
7. 밈
초창기 버전에서 면류 음식을 먹는 이미지를 제대로 그리지 못해서 밈이 되었다. 이를 촉발시킨 건 위에 걸려 있는, 명령어 기능으로 아이돌 마스터 샤이니 컬러즈의 히구치 마도카가 라멘을 먹는 모습을 입력한 어느 짤방으로 젓가락도 쓰지 않고 면이 반중력이라도 걸린 것처럼 빨려올라가는 기묘한 모습으로 엄청난 화제가 되었다. 이 외에도 면은 놔두고 젓가락만 먹는 길모퉁이 마족의 치요다 모모[30]나, 손으로 면을 빳빳이 세워먹는 마녀의 여행의 일레이나, 목에 두른 목도리에다가 라멘을 담아먹거나, 라멘 대신 목도리를 빨아먹는 기행을 벌이는 블루 아카이브의 스나오오카미 시로코 등 면요리 관련 엽기짤이 대량으로 생성되고 있다. 이 사태의 원흉인 히구치 마도카는 즉시 수많은 엽기 면 취식짤의 희생양이 되었으며, 심지어 그와중에 동명이인인, 마법소녀 마도카☆마기카의 카나메 마도카와 몸이 섞여버리는 비극까지 일어났다. 한편 김편집의 경우 수많은 시행착오 끝에 캐릭터가 정상적으로 라멘을 먹는 이미지를 뽑아 내는 데 성공했는데, KAIST 김주호 교수가 그 과정을 김편집의 허락을 받고 국제 AI 학회 NeurIPS 강연에 사용하기에 이르렀다!
비슷한 맥락으로 케이크로 변하는 상태변화가 우연히 재주목받게 되었다. 상태변화에서 캐릭터가 케이크로 변해버리는 것 자체는 없지 않았지만, NovelAI에 의한 케이크화가 왜 유행했는지는 트위터에서 어떤 사람이 '케이크를 먹고 감격해서 울고 있는 여자아이'를 NovelAI에 키워드를 넣고 묘사하려 했는데 아는 단어가 별로 없어서인지 cake, crying, girl이라는 키워드만 대충 넣었는데 결과물은 정상적으로 출력된 여자아이 얼굴은 울고 있었지만, 나머지 몸통이 케이크로 변해버린 그림이 나온 것이다. 픽시브 백과의 설명
그 외에도 수영하는 포즈도 잘 인식하지 못하는지 모세의 기적이나 물 위 걷기를 시전하는 파이널 판타지 7의 세피로스[31] 같은 이상현상(?)이 속속들이 발굴되고 있다.
히구치 마도카, 케이크녀, 세피로스는 이쪽 계열의 개노답 삼남매로 추대받았다. 그 외에도 열차에 거유 내지 폭유 미녀 캐릭터의 상반신이 붙은 폭유기관차 이미지 등 각종 기묘한 짤들이 유저들 사이에서 유명세를 타고 있다. 또한 손으로 그린 주인공과 AI가 그린 여자 친구 사이에서 일어나는 에피소드 만화가 나오기도 했다.
Civitai에 BetterRamenEating이라는 라멘 먹는 것을 잘 표현해주는 LoRA가 올라왔다. 그리고 본가 NAI가 V3으로 업데이트되면서 라멘을 못 먹는 거 역시 옛말이 되었다.
사실 라멘을 먹는 것은 그림 인공지능이 제대로 된 이미지를 생성해내기에 꽤 어려운 작업이다. V3 기준으로도 이전처럼 라멘을 못 먹지는 않더라도 손가락이 6개 이상 나오는 신체 기형이나, 젓가락을 이상하게 잡는다거나, 젓가락이나 면발의 크기가 지나치게 작거나 혹은 크거나, 면발이 이상하게 올라오는 기형이 생길 확률이 여전히 높기 때문에 수정을 가하거나 인내심을 갖고 재시도를 해야 한다.
8. 기타
- 간혹 NovelAI를 그림 인공지능으로 아는 사람들도 많다. 소설쪽 AI가 그림쪽 AI보다 인지도가 낮다 보니 발생하는 일. 게다가 소설 AI는 꽤나 그럴 듯한 완성도를 출력해주는 그림과 다르게 몇 페이지의 간단한 단편 정도라면 모를까 페이지 수가 늘어나거나 어휘, 단어, 문장 구조가 복잡해질수록 문장, 단어 오탈자가 발생하고 구조의 앞뒤가 틀리거나, 맥락과 주제가 180도 달라지거나, 심각하면 단어를 그냥 조합해서 아무 말 대잔치를 벌이는 등 급격하게 어색해진다는 평가가 매우 많다.
- 그림 인공지능의 인지도나 대중화를 이끈 프로그램이기도 하다. 그림 인공지능의 개념은 2014년부터 있었으나, 워낙 성능은 단순하고 실용성이 떨어졌다. 그러다가 이 프로그램이 성능이 워낙 좋다 보니 여러 사람들이 다양한 곳에서 사용하기 시작했다. 결국 정말 많은 사람들이 사용하기 시작하자, 본격적으로 그림 인공지능의 여러 논쟁을 만든 프로그램이기도 하다.
- 지식재산권법학자 정상조 서울대 법학전문대학원 교수는 문체부 등이 개최한 2022 콘텐츠분쟁조정 포럼에서 "사람과 달리 인공지능은 데이터를 학습하는 과정에서 복제[32]와 전송이 일어나기 때문에 저작권·개인정보 침해 등이 문제가 될 수 있다"고 함과 동시에 "현실적으로 일일이 저작권자의 허락을 받기 어려우므로, 가장 중요한 것은 결국 데이터의 수집과 이용이 공정 이용에 해당하는지 여부"라고 주장했다. 또한 "데이터 활용 권리보호에 관련해 5개 부처에서 5개 법률을 내는 것은 어떠한 나라에도 있을 수 없는 중복보호, 중복규제다"라면서 "콘텐츠의 생산과 활용에 있어서 보호도 중요하지만, 활용을 촉진해야 인공지능에 의한 콘텐츠 산업을 육성할 수 있다. 따라서 권리 보호와 이용 활성화의 균형점을 찾는 게 중요하다"고 하였다. 규제에 대해 긍정적인 쪽으로 편집한 기사와 규제에 대해 부정적인 쪽으로 편집한 기사에서 각기 다르게 발언을 선별 인용하고 있다. 전체적인 맥락 속에서 이해할 필요가 있다.[33]
[1]
NovelAI 측에서 공개한 Stable Diffusion의 수정 사항(영어)
[2]
다만 서비스 개시 4일 만에 소스코드와 학습된 체크포인트 파일이 유출되면서, 유출된 파일을 이용해 자신의 컴퓨터에서 구동하는 사용자도 종종 찾아볼 수 있다. 자세한 내용은 후술.
[3]
이미지 제네레이터에 접속은 가능하며, 만약 남아있는 Anlas가 있다면 전부 소모할 때까지 사용 가능하다.
[4]
normal 사이즈 1장 생성 한정이며 normal의 기준은 가로 X 세로 길이의 곱한 값이 1048576 이하라면 허용된다.
[5]
스토리 텔링 서비스의 경우 AI의 기억력 한계는 1024토큰, 매주 1000의 우선도가 주어진다. 이미지 제너레이터의 경우 매월 1000 Anlas(V3 normal 사이즈 28 step 기준(해당 기준은 Opus 구독시 무료로 가능한 상한선) 대략 50장 정도 제작가능한 포인트)가 제공된다.
[6]
스토리 텔링 서비스의 경우 AI의 기억력 한계는 2048토큰, 매주 1000의 우선도가 주어진다. 이미지 제너레이터의 경우 매월 1000 Anlas(V3 normal 사이즈 28 step 기준 대략 50장 정도 제작가능한 포인트)가 제공된다.
[7]
스토리 텔링의 경우 AI의 기억력 한계는 2048토큰, 우선도 무한, 생성 가능한 글자수 최대치나 한 달에 학습 가능한 커스텀 모듈의 스텝 수가 높으며, 실험용 기능을 전체 공개되기 전에 미리 써볼 수 있다. 이미지 제너레이터의 경우 매월 10000 Anlas가 제공되며, 기본사이즈 이미지에 한해 무제한 사용이 가능하다. 이미지 제너레이터를 많이 사용할수록 이득을 보는 셈.
[8]
예시는
블루 아카이브로 해당 로고는 온전한 「ブルーアーカイブ」 로고로 보이지만, 자세히 보면 그대로가 아닌 군데군데 깨져있는 것을 확인할 수 있다. 현재까지의 그림 AI는 이러한 로고가 등장하지 않거나, 등장하더라도 형체를 알 수 없을 정도로 망가져 나오는 경우가 대부분이었던지라, 이는 결국 NAI v3이 더욱 노골적으로 특정 작가의 화풍을 모방할 수 있도록, 기존 그림의 변형을 가능한 줄이도록 수정된 것이 아닌가라는 의혹 역시 불러 일으키고 있다. 또 밀리터리 소녀 스타일이나 특정 총기명을 입력해서 프롬프트를 찍을 시,
소녀전선 스타일 프롬프트를 입력하지 않았음에도 형태가 크게 망가지지 않은 「少女前线」 로고가 곁들여진 소녀전선 인형 프리뷰 삽화 레이아웃처럼 나오는 경우가 있다. 굳이 로고나 워터마크가 거슬린다면 추가적으로 네거티브에 logo, watermark를 입력하자.
[9]
스크립트 방식은 DALL·E와 같은 다른 이미지 제너레이터에서도 사용되는 방식이다. 이미지 제너레이터마다 다르지만, 한 사진을 주고 주변을 그려달라 하거나, 특정 부위만 바꿔달라 하거나, 또는 대충 그린 그림을 기반으로 그려달라 하는 등 다른 방법도 존재한다.
[10]
최근에는 어도비에서도 한글 프롬포트 입력을 지원하는 서비스를 추가했다.
#
[11]
이중 거의 유일한 온라인 무료 이미지 제너레이터이지만 다른 것들에 비해 수준은 낮은 편이다.
#
[12]
하지만 특정 키워드 입력을 이용해서 아니메풍 모델로 실사체의 그림을 그리는 것도 가능하다.
[13]
특히
총기 같이 섬세하게 묘사해야 하는 경우. 캐릭터에게 날개나 꼬리 같은 게 달려 있는 경우 캐릭터의 포즈가 조금이라도 달라지면 위치를 잘 못 잡는다.
[14]
예를 들어, 살아있는 물고기 상태의
연어를 요청했는데 필레 형태로 손질된 모습으로 묘사된다거나...
[15]
다만 배경 전문 인공지능이 아닌지라 세세한 부분은 여전히 깨지거나 디테일이 떨어지기는 한다. 최소한 볼만하게 만들어 주는 정도.
[16]
정확히는 V2도 SDXL 적용 모델이지만 Civitai에서 쉽게 주울 수 있는 SDXL 아니메 모델 수준에 불과했다. 그리고 공개된 지 얼마 되지도 않아 V3에게 자리를 내주었다.
[17]
물론 재현도 자체는 NAI V3 쪽이 더욱 우수하지만, 데이터셋은 지금도 활발하게 각종 캐릭터와 그림체 LoRA가 제작되어 배포되고 있는 Web UI 쪽이 단연코 압도적이다. NAI V3는 제작진 측에서 학습시켰던 시점의 단부루 데이터가 전부라 한계가 있기 때문인데, 단부루는 자동으로 업로드되는 미러링이나 아카이브형 사이트가 아니라 유저들이 직접 그림을 업로드해야 하는 플랫폼이기 때문에 작품, 캐릭터, 그림체 데이터가 각각 고르게 분포되어 있지 않고 각 유저들의 성향에 따라 들쑥날쑥하기 때문이다. 때문에 극히 마이너한 그림쟁이의 그림체나 심지어 자캐도 유저 중에 팬이 있어서 데이터가 충분하다면 재현이 되지만, 반대로 아무리 메이저하거나 그러했던 작가나 장르라도 단부루에 상주하는 팬이 적거나 서브컬처 성향에 맞지 않는다면 데이터가 없거나 부족해서 재현이 안 된다. 거기에 단부루 데이터가 NAI V3에 실시간으로 업데이트되는 것도 아니라서 출시 후 나온 최신 작품이나 캐릭터도 반영되지 않는다.
[18]
캐릭터 표정변화, 자동채색, 러프스케치 역행 기능 등이 있다. 자동채색은 말이 자동채색이지 옵션 프롬프트(일반 프롬프트에 비해 입력매개변수 한계가 있다.)만 적절히 조절하면 구도를 거의 유지하는 배리에이션 그림도 제한적으로나마 가능할 정도다. 단점은 역시 보조기능이라 SEED값이 저장 안 되고 모델도 지정 불가능
[19]
특히 NAI V3가 오픈소스로 풀리지 않은 만큼 LoRA 학습이나 원하는 방향으로 모델 미세조정 등을 할 수 없다 보니, 직접 체크포인트를 제작할 여력이 없는 오덕계 유저들은 Animagine이나 Pony Diffusion을 최대한 활용하는 것이 아니면 한계가 오고 있었는데, 2024년 하반기에는 저 단보루 데이터를 학습한 SDXL 모델인
Illustrious-XL가 등장해 극초기라 할 수 있는 0.1 버전임에도 무궁무진한 가능성을 보여주며 옮겨 타는 유저들이 점차 생겨나고 있다. 물론 기초적인 퀄리티는 V3가 높지만 Illustrious-XL 0.1은 비슷한 데이터 세트를 가지고 있으면서 미세조정 및 로라 학습이 가능하고 무료라는 엄청난 강점이 있다.
거기에 아직 공개되지 않은 V1, V2가 대기하고 있다.
[20]
최소사양 GTX 1050 Ti 4GB
[21]
2000번대는
성능
자체는 괜찮은 편이지만 2060 12GB와 2080Ti를 제외하면 전부 VRAM이 부족해 성능을 제대로 써먹지 못 한다.
[22]
라데온과 인텔은 CUDA가 없어 이론상 사용할 수 없으나, 라데온의 경우에는 후술하듯이 ROCm, 인텔의 경우는 oneAPI을 사용하면 가능하긴 하다.
[23]
DirectML을 활용해 윈도우에서 돌리는 방법도 나왔으나 ROCm보다는 느리다.
#
[24]
inpaint라는 기능인데 이미지의 특정 부분만 지정해서 재생성할 수 있다. 마음에 안 드는 부분을 수십번 재생성해서 마음에 드는 모양이 나올 때까지 반복하는 방법으로 그림을 상상 그대로 만들어낼 수 있다. 사용자들은 이 기능으로 WebUI가 진정한 신이 되었다며 극찬을 하고 있다.
[25]
얼마나 효율적이냐면 100장 미만 정도의 이미지로도 학습이 될 정도다. 물론 시간은 걸리겠지만 LoRA 이전의 그림학습보다 훨씬 단축된 것이라고 한다(?).
[26]
다만 NovelAI의 주요 고객층인 서양 쪽에서 퍼리는 상당한 영향력을 가지고 있는 수요층이기 때문에 무시할 수 없다. NaiV3를 위협한다는 평가를 받는 Pony Diffusion V6을 만들어낸 사람들이 바로 퍼리/브로니들이다.
[27]
2023년 4월 업데이트 공지에서는 ControlNet 기능을 역수입(?)해온다고 공지했다.
[28]
이 모델은 자체 알고리즘을 탑재해 획기적인 성능 개선을 이룬 NAIV3과 PDV6과 다르게, 순정 SDXL 모델을 베이스로 하므로 성능 자체는 큰 개선점이 없다. 그래도 기존 아니메 SDXL 모델들에 비해서 아니메풍 이미지를 비교적 체계적으로 학습시켰기 때문에 조형이 상당히 개선되었고 PDV6 등장 전 SDXL용 LoRA들이 호환된다는 장점이 있다. 또한 NAIV3은 애초에 유료고, PDV6은 무료지만 전반적인 작화가 아니메를 지정해줘도 서양풍에 가깝게 생성되고 포니와 퍼리 데이터들이 포함되어 있다 보니 사람에 따라 호불호가 갈리는 경우가 있어서, 사실상 순수 아니메 무료 모델에다가 기존 LoRA가 호환되는 이 모델을 선호하는 사람들도 많다.
[29]
그림 인공지능을 많이 다뤄본 사람이면 알겠지만, 로라 등 학습 파일이 많아질수록 여러 요인에 의해 작화가 점점 불안정해진다. 그리고 각각의 학습 파일들의 완성도도 사람마다 들쑥날쑥하다. 그래서 필요한 학습 파일들을 학습 방식을 통일해 전부 자작해서 활용하지 않는 한, 잘 다루는 사람들은 모델이 이미 생성 가능한 것에 대한 불필요한 파일들은 가능하면 제외하고 필요한 것만 쓰는 식으로 파일 양을 줄이고 가중치를 적절히 낮출 것을 권장한다. 반면 NAIV3는 사실상 한 모델에 단보루 데이터가 모조리 들어가 있기 때문에 생성이 가능한 선에서는 각종 프롬프트를 모조리 때려박아도 직접적인 작화 저하는 나타나지 않는다.
[30]
자세히 보면 젓가락을 쥐고 있는 손 부분에서 젓가락이 끊겨 있다.
[31]
옷은 어째서인지 알몸에
훈도시 차림이다.
[32]
저작권법 제4절 제1관 제16조 복제권 참조
[33]
정상조 교수가 2021년에 출간한 교양서적인
인공지능, 법에게 미래를 묻다에서도 이루다 등을 거론하면서 이 주제를 다루었다. 동 저자의
기술혁신의 기원도 참조. 당 서적에서 정상조 교수는 인공지능 학습을
공정 이용의 성립 여부의 맥락에서 접근하고 있으며, 기술혁신의 촉진을 위해 사회적 합의를 할 것을 촉구했다.