1. AI가 그림을 그린다?
최근에 이미지 생성 AI가 떠오름에 따라, 'AI가 그림을 그린다'라는 말이 떠올랐다. AI가 그림을 그린다는 말, 반은 맞고 반은 틀리다. AI는 그림을 그리는게 아니라 데이터로부터 이미지를 생성하는 것이다. 이 차이를 이해하는 것이 이미지 생성 모델을 이해하는 첫번째 키인데, AI는 수억장의 이미지를 학습해 '고양이는 이렇게 생겼다.', '하늘은 이런 색이다'라는 패턴을 통계적으로 학습한다. 그리고 우리가 텍스트를 입력하는 순간, 이미지 생성모델은 그 패턴을 조합해서 존재하지 않았던 이미지를 만들어내곤 한다. 따라서 확률로 그려낸 이미지라는 뜻이다. 그렇다면 이미지 생성 모델은 어떤 것들이 있을까?

2. 이미지 생성 모델
1) GAN(Generative Adversarial Network)
GAN의 경우에는, Generator(생성자)와 Discriminator(판별자)라는 두개의 신경망이 경쟁하며 발전하는 형태이다. 생성자는 가짜 이미지를 생성해내고, 판별자는 진짜와 가짜를 구별하려고 하는데, 서로의 목표를 가지고 신경망이 경쟁하며 점점더 정교한 이미지를 생성자는 만들어낸다. 처음에는 랜덤한 노이즈에서부터 생성자는 가짜 이미지를 만들게 되는데, 판별자는 실제 이미지와 가짜 이미지중 실제 = 1, 가짜 = 0이 되도록 학습을 하게 된다. 생성자는 계속해서 '가짜 이미지가 진짜 이미지처럼 보이게' 이미지를 만들어내도록 학습하게 되고, 이것을 반복하다보면 점점 생성자가 정교해져, D가 더이상 판별하지 못하는 상태가 되면 학습이 완료된 상태가 된다. 하지만 큰 단점이 있는데,
- Mode Collapse : 생성자가 판별자를 속이는 '특정 이미지 패턴' 하나만 반복해서 생성, 다양성이 낮아짐
- 학습 불안정 : 생성자가 너무 강해지면 판별자는 의미가 없어지고, 판별자가 너무 강해지면 생성자가 학습을 하지 못한다. 균형을 맞추기가 까다로움
위처럼 한계가 명확하고, 학습이 불안정하다는 단점이 있다.

2) VAE(Variational Autoencoder)
VAE는 이미지를 압축하여 잠재공간(latent space)에 표현하고, 그 공간에서 샘플링을 하여 다시 이미지를 복원한다. 잠재공간은 연속적이기 때문에 속성을 조절하는데 유리하다. 이미지의 노이즈를 제거하고 복원하는 AutoEncoder과 구조는 같지만, 오토인코더는 잠재공간을 점으로 압축하고, VAE는 이미를 잠재 공간의 확률 분포로 압축한다는 차이점이 있다. 일반 AutoEncoder의 경우, 잠재공간에서 임의의 점을 뽑으면 의미없는 노이즈가 나올 가능성이 높아 새로운 이미지를 만들 수 없지만, VAE는 잠재 공간 전체가 의미있는 구조이기 때문에 새로운 이미지를 생성할 수 있게 된다. 다만 단점으로는 압축과정에서 정보가 손실되어 결과물이 다소 흐릿한 경향이 있다.

3) Diffusion
Diffusion 방식은 현재 가장 주목받는 방식으로, 이미지에 노이즈를 단계적으로 추가하는 과정을 역방향으로 학습하게 된다. 즉 완전한 노이즈에서 시작해 조금씩 노이즈를 제거하며 이미지를 복원하는 과정을 반복하게 되는데, 이 방식을 이용하면 품질이 압도적으로 뛰어나고, 텍스트 조건을 정교하게 반영할 수 있어서 현재 텍스트 -> 이미지 생성의 표준이 되었다. Stable Diffusion, DALL-E 3, Midjourney 모두 이 방식을 사용한다. 단점은 GAN의 경우에는 한번만에 끝내지만, Diffusion의 경우에는 노이즈를 보통 1000단계에 걸쳐 조금씩 추가하고, 1000단계를 돌려야 하다보니 품질은 아주 좋지만 속도가 느리다는 단점이 있다.

4) Autoregressive
Autoregressive 방식은 이미지를 픽셀/토큰의 시퀀스로 보고, 앞의 토큰들을 참고해 다음 토큰을 순차적으로 예측하는 방식이다. ChatGPT같은 언어모델이 단어를 하나씩 예측하는 것과 같은 구조인데, 따라서 텍스트와 이미지를 하나의 모델로 통합하기 쉬워 멀티모달 확장성이 높다. 하지만 토큰을 하나하나씩 순차적으로 예측하기 때문에 속도가 Diffusion 모델보다도 매우 느린게 단점인데 , 그럼에도 구조가 LLM이랑 완전히 같아, 멀티모달 확장성으로 인해 주목받고 있다.
