[include(틀:관련 문서, top1=그림 인공지능)]
[include(틀:그림 인공지능)]
||<-2><table align=right><table width=350><table bordercolor=#ddd,#010101><bgcolor=#ddd,#010101><table bgcolor=#fff,#2d2f34><table color=#373a3c,#ddd> '''{{{+1 스테이블 디퓨전}}}'''[br]Stable Diffusion ||
||<width=120><colbgcolor=#ddd,#010101> '''분류''' ||[[그림 인공지능]], [[오픈 소스]] ||
|| '''개발사''' ||[[https://stability.ai/|Stablity AI]] ||
|| '''출시일''' ||[[2022년]] [[8월 22일]] ||
|| '''버전''' ||'''2.1''' ||
|| '''링크''' ||[[https://stability.ai/|[[파일:홈페이지 아이콘.svg|width=20]]]] [[https://www.youtube.com/@Stability_AI|[[파일:유튜브 아이콘.svg|width=20]]]] [[https://www.instagram.com/stability.ai/|[[파일:인스타그램 아이콘.svg|width=20]]]] [[https://twitter.com/stabilityai|[[파일:트위터 아이콘.svg|width=20]]]] [[https://kr.linkedin.com/company/stability-ai|[[파일:LinkedIn 아이콘.svg|width=20]]]] [[https://discord.com/invite/stablediffusion|[[파일:디스코드 아이콘.svg|width=20]]]] ||
[목차]
[clearfix]
== 개요 ==
'''Stability AI'''에서 오픈소스 라이선스로 배포한 text-to-image [[인공지능]] 모델이다. 2022년 8월 22일 출시했다. 

== 상세 ==
Stable Diffusion은 독일 [[뮌헨 대학교]] Machine Vision & Learning Group (CompVis) 연구실의 "잠재 확산 모델을 이용한 고해상도 이미지 합성 연구"[* R. Rombach, A. Blattmann, D. Lorenz, P. Esser and B. Ommer, "High-Resolution Image Synthesis with Latent Diffusion Models", arXiv:2112.10752 \[cs.CV\], 13 Apr 2022. [[https://arxiv.org/abs/2112.10752|#]]]를 기반으로 하여, Stability AI와 Runway ML 등의 지원을 받아 개발된 딥러닝 인공지능 모델이다.

Stability AI는 방글라데시계 영국인 에마드 모스타크(Emad Mostaque)가 사비로 만든 회사로, Stable Diffusion에 방대한 LAION-5B 데이터베이스를 학습시킬 수 있도록 컴퓨팅 자원을 제공하였다. OpenAI의 [[DALL-E|Dall-e 2]]나 구글의 Imagen과 같은 기존 text-to-image 모델들과는 다르게 컴퓨터 사용 리소스를 대폭 줄여 4GB 이하의 VRAM을 가진 컴퓨터에서도 돌릴 수 있다. 

또한 개발 비용이 클 것임에도 불구하고[* Stable Diffusion AI 개발을 위해 학습에 들인 비용은 약 $600,000 정도로 추정된다고([[https://the-decoder.com/training-cost-for-stable-diffusion-was-just-600000-and-that-is-a-good-sign-for-ai-progress/|#]]).] 통 크게 [[오픈 소스]]로 공개해서 일반인들도 사용을 할 수 있다.

사실상 [[그림 인공지능]]의 시대를 연 인공지능 모델이며 이 모델을 채택한 인공지능들이 우후죽순으로 늘어나고 있다.

==# 버전 업 #==
2022년 8월 22일 '''1.0 버전''' 출시.

2022년 11월 24일/ '''2.0 버전'''을 발표했다. 학습 데이터의 해상도가 512x512에서 786x786으로 높아졌고 [[https://github.com/mlfoundations/open_clip|OpenCLIP]]이라는 독자적인 텍스트 인코더를 도입하게 되었다. 또한 해당 버전은 학습 데이터에서 성인물을 제거했고, 특정 창작자의 화풍을 모방하는 기능이 제대로 작동하지 않게 되었다. [[https://stability.ai/blog/stable-diffusion-v2-release|#]] [[http://www.ekoreanews.co.kr/news/articleView.html?idxno=64050|#]] 이에 대해 사용자들의 큰 반발이 있었으나 법적 문제를 피하기 위해선 어쩔 수 없었다는 의견도 있다. 또한 화풍 문제는 새로운 텍스트 인코더인 OpenCLIP의 문제점으로 밝혀지면서[* 이전 텍스트 인코더였던 [[OpenAI]]의 CLIP은 비공개 데이터셋을 기반으로 학습되었고 OpenCLIP은 오픈 소스 데이터셋인 Laion-2B를 기반으로 학습되었다. CLIP의 비공개 데이터셋에 존재하던 작가들이 Laion-2B에는 없었기 때문에 일어난 일이다. 다만 Laion-2B의 질이 전반적으로 떨어지기 때문에 확실히 모델이 열화된 느낌이 있다.] StabilityAI가 고의로 제거한 것이 아닌 것으로 밝혀졌다. 이후 업데이트 된 2.1에선 신체 비율에 중요한 이미지는 제거하지 않은 채로 학습되었다.

2022년 12월 13일/ [[https://www.riffusion.com|Riffusion]]이라는 모델이 출시되어 음악도 생성할 수 있다. 여러 음악의 [[스펙트로그램]]의 이미지를 학습시킨 뒤 AI가 생성한 스펙트로그램 이미지를 다시 음악으로 변환하는 원리다.

2022년 12월 15일/ 앞으로 나올 '''3.0 버전'''에 새 기능을 추가했다. 이제 원작자가 데이터셋에 있는 자신의 작품을 삭제할 수 있게 되었다. 데이터셋에서 작품을 생략하길 원하는 아티스트는 스태빌리티AI가 별도로 마련한 홈페이지 ‘헤브아이빈트레인(HaveIBeenTrained)’에 접속해 텍스트나 파일을 입력하면 된다. [[https://zdnet.co.kr/view/?no=20221216104015|#]]

2023년 7월 26일 stability ai 에서 공식적인 업그레이드 버전 SDXL를 발표하였다. 기존 약 1억개의 파라미터로 학습한 SD 를 6배 이상 늘린 6.6억개의 파라미터로 학습한 모델이다. SD 1.5 보다 성능적, 디테일 묘사 부분에서 훨씬 뛰어나 세계 각국의 여러 사용자들은 SDXL로 넘어가고 있다. [[한국어로 된 SDXL 공식 사용법 및 설치 가이드도 있다.[* 한국어로 된 [[https://allwayhelp.com/sdxl-%ec%82%ac%ec%9a%a9%eb%b2%95/|SDXL 사용법 및 설치 가이드]]도 있다. ]

== 모델 아키텍처 ==
[[파일:article-Figure3-1-1024x508.png]]

Stable dIffusion은 크게 보면 CLIP, UNet, VAE(Variational Auto Encoder, 자기부호화기)이라는 세 가지 [[인공신경망]]으로 이루어져 있다. 유저가 텍스트를 입력하면 텍스트 인코더(CLIP)가 유저의 텍스트를 토큰(Token)이라는 UNet이 알아들을 수 있는 언어로 변환하고, UNet은 토큰을 기반으로 무작위로 생성된 노이즈를 디노이징하는 방식이다. 디노이징을 반복하다 보면 제대로 된 이미지가 생성되며, 이 이미지를 픽셀로 변환하는 것이 VAE의 역할이다.

해상도가 높아질수록 리소스를 기하급수적으로 사용하게 되는 종전의 확산 확률 이미지 생성 모델과 달리, 앞뒤에 오토인코더를 도입하여 이미지 전체가 아닌 훨씬 작은 차원의 잠재공간(latent space)에서 노이즈를 삽입/제거하므로, 비교적 큰 해상도의 이미지를 생성하는데도 리소스 사용량을 대폭 줄여 일반 가정의 그래픽카드 정도로도 이용이 가능해진 것이 특징이다.
== 라이선스 ==
Stable AI에서 오픈소스 머신러닝 전용 라이선스[* [[https://github.com/CompVis/stable-diffusion/blob/main/LICENSE|CreativeML Open RAIL-M]]]를 새로 만들었다. 일반적인 오픈소스 라이선스와 다르게 Stable Diffusion을 사용하여 서비스를 할 경우 반드시 명시를 하여야 하고 파인튜닝을 모델들은 라이선스에 명시된 특정 제한적인 용도에는 사용이 되면 안된다.

== 직접 돌리기 ==
오픈소스 모델답게 다양한 오픈소스 프로젝트들이 존재한다. 다만 설명은 영문으로 되어있으니 주의할 것.
 * [[https://github.com/AUTOMATIC1111/stable-diffusion-webui/|Stable Diffusion web UI]] - 웹 기반의 유저 인터페이스("Web UI")를 통해 Stable Diffusion 모델을 편리하게 사용할 수 있도록 만들어 놓은 프로젝트이다. 개발자[* AUTOMATIC1111 및 오픈소스 기여자들]의 꾸준한 업데이트를 통해, Stable Diffusion의 프론트엔드 기능 외에도 GFPGAN 보정, ESRGAN 업스케일링, Textual Inversion 등 다양한 기능을 도입하고 있다.
 * [[https://github.com/CompVis/stable-diffusion|원작자]] - 논문을 개제한 CompVis의 원본 프로젝트. 사용성은 떨어지니 참고만 하자.
 * [[https://discord.gg/nSrYbMXJQn|Text-to-Art Discord]] - Discord Bot 형태로 Stable Diffusion을 무료로 제공. 2048 x 2048 사이즈까지 생성가능.
 * [[https://github.com/huggingface/diffusers|Diffusers]] - Transformers나 Datasets 같은 머신러닝 프레임워크 제공사로 유명한 허깅페이스의 새로운 diffusion 모델용 프레임워크. stable diffusion의 finetuning을 하고 싶다면 가장 쉽게 할 수 있는 방법을 제공해준다.
 * [[https://diffusionbee.com/|DiffusionBee]] - Stable diffusion을 직접 돌려볼 수 있는 맥용 앱이다. 텍스트입력, 이미지입력 둘다 가능하며 인페인팅과 아웃페인팅 기능도 지원한다.  일반 Apple Silicon 버전은 애플 실리콘 내부의 뉴럴 엔진을 사용하고, HQ 버전은 GPU를 활용하여 퀄리티가 더 높은 대신 속도가 2배 정도 느리다. 인텔 맥도 지원중이며 향후 윈도우도 지원 예정. 
 * [[https://www.riffusion.com/about|Riffusion]] - [[스펙트로그램]]을 역이용해 작곡 AI에 응용하려는 사례

== 사건 사고 ==
=== 저작권 관련 소송 ===
[include(틀:상세 내용, 문서명=그림 인공지능/논쟁과 사건 사고, 문단=3.15)]

== 관련 문서 ==
 * [[NovelAI/이미지 제네레이터]]

== 외부 링크 ==
 * [[https://en.wikipedia.org/wiki/Stable_Diffusion|위키백과(영문)]]
 * [[https://civitai.com/|Civitai]]: LORA, Textual Inversion, Hypernetwork 등 다양한 타입의 모델과 적용 예시를 공유하는 플랫폼
 * [[https://huggingface.co/|Hugging Face]]: 각종 모델을 업로드하는 플랫폼

[[분류:그림 인공지능]][[분류:오픈 소스 소프트웨어]][[분류:2022년 출시]]