본문 바로가기
AI

AI 이미지 생성 기초

by hfgraphic 2025. 6. 5.
반응형

AI 분야 외부 사람들과 이야기하다 보면 자주 듣는 오해 중 하나가 “마법 버튼”이라는 개념입니다. 많은 사람들은 AI가 마치 마법 같은 기계라서, 프롬프트만 입력하고 버튼 하나만 누르면 멋진 영화가 뚝딱 나온다고 생각합니다.

 

물론 여러분은 그렇게 생각하지 않죠. Curious Refuge 과정의 수강생인 여러분은 AI 영화 제작이 단순한 일이 아니라는 걸 잘 알고 계실 겁니다. 마법 버튼은 존재하지 않습니다. 이건 제가 굳이 설명할 필요도 없죠.

 

여러분이 이미 익숙할 수 있는 도구들, 예를 들어 Midjourney, Runway, ChatGPT 같은 툴들은 생성형 AI의 빙산의 일각일 뿐입니다. 지금까지 단순한 프롬프트 입력을 통해 놀랍게 좋은 결과물을 얻어봤을 수도 있겠지만, 동시에 그 결과가 여전히 많이 랜덤하다는 것도 느끼셨을 겁니다.

 

이런 도구들은 트레일러, 광고, 또는 간단한 내러티브 콘텐츠를 만드는 데 매우 유용합니다. 그러나 예를 들어 애니메이션처럼 정밀하고 통제 가능한 결과가 필요한 분야에서는 이런 표면적인 도구들만으로는 원하는 퀄리티에 도달하기 어렵습니다.

 

물론 여러분 중 일부는 이렇게 말할 수도 있습니다. “Midjourney도 인페인팅이 되잖아요. Runway는 더 많은 제어 도구를 추가하고 있잖아요.” 맞습니다. 이 ‘표면’은 계속 바뀔 수 있습니다. 앞으로 빙산 아래에 있는 도구들도 달라질 수 있죠. 하지만 여전히 더 높은 퀄리티를 얻기 위해서는 표면 아래에 있는 도구들을 배워야 하고, 거기에는 노력이라는 대가가 따릅니다.

 

이제 본격적으로 들어가기 전에 잠깐 AI 이미지 생성의 기초로 돌아가 보겠습니다. Midjourney에 익숙한 사용자라도 AI가 어떻게 작동하는지에 대한 기본 개념을 다시 짚고 넘어가는 게 중요합니다.

 


 

텍스트 → 이미지

 

가장 간단한 형태는 텍스트를 이미지로 바꾸는 AI입니다. 예:

“비싼 비디오 카메라를 들고 웃고 있는 영화학도”

이런 프롬프트를 입력하면 AI가 이미지를 만들어줍니다.

 


 

이미지 → 이미지

 

AI에 이미지를 주고, 프롬프트를 통해 스타일이나 내용을 바꾸는 방식입니다.

예: 젊은 영화학도를 60세 영화감독으로 바꾸기.

또는 이미지 스타일을 스톱모션 클레이 애니메이션 스타일로 변환할 수도 있습니다.

 


 

이미지 → 영상

 

영화 제작자에게 정말 유용한 기능이죠.

예시: 어떤 영화 프로젝트에서 1980년대의 스타디움 항공샷이 필요했지만 실제 아카이브 영상이 없었습니다. VFX로 만들기엔 예산이 너무 컸고, 대신 사진 한 장을 Runway를 통해 영상화하여 VHS 효과를 입혀 완벽한 결과를 얻을 수 있었습니다.

 


 

영상 → 영상

 

예를 들어 기존 영상을 받아서 “스톱모션 스타일”로 바꾸는 식입니다.

완벽하진 않지만 새로운 가능성을 보여주는 기술입니다.

 


이 모든 기술들의 공통점은, 정보의 변환입니다.

 

  • 텍스트 → 이미지
  • 이미지 → 이미지
  • 이미지 → 영상

 

결국 AI는 하나의 정보를 다른 형태로 바꾸는 변환기일 뿐입니다.

 


 

AI가 할 수 없는 것

 

  • 전체 영화 장면을 만들 수 없습니다.
  • 자신이 만든 결과물의 퀄리티를 이해하지 못합니다.
  • 스스로 학습하거나 개선하지 못합니다.
  • 문맥을 이해하지 못합니다.

 

즉, 같은 인물이 다른 앵글에서 똑같이 나와야 하는 장면에서 AI는 일관성을 유지하지 못합니다. 그래서 이 과정에서는 캐릭터의 일관성을 유지하기 위한 여러 가지 방법을 배울 겁니다.

 


 

디퓨전 모델(Diffusion)

 

현재의 AI 이미지 생성 방식입니다.

독일 뮌헨 LMU 대학의 Björn Ommer 박사가 이끄는 팀에서 개발했습니다.

 

  • 처음엔 이미지에 대한 설명을 하는 AI를 학습시킴
  • 이후 이 과정을 역방향으로 적용해서 텍스트를 이미지로 생성

 

AI는 무작위 노이즈 이미지에 점점 텍스트에 맞는 픽셀을 찾아내는 식으로 이미지를 만듭니다.

 


 

AI는 콜라주가 아님

 

많은 사람이 AI가 인터넷에서 이미지를 가져다가 조합한다고 생각하지만, 사실 AI 모델은 외부 검색 없이 폐쇄된 상태에서 생성합니다.

훈련 데이터를 바탕으로 새로운 이미지를 픽셀 단위로 새로 그려내는 것입니다.

 


 

잠재 공간(Latent Space)

 

AI가 학습한 개념의 연결 구조입니다.

 

예:

 

  • 말(horse) → 갈색(brown)
  • 파티 안경(party glasses) → 분홍색(pink)
  • 이런 식으로 개념들이 연결되어 있어서, 프롬프트가 들어오면 이 개념들을 조합해 이미지를 생성합니다.

 


 

모델의 종류

 

  • 기본 모델(Base Model): 범용이지만 세부 표현이 부족
  • 파인튜닝 모델(Fine-Tune): Juggernaut 같은 고품질 모델
  • LoRA (Low-Rank Adaptation): 가벼운 추가 학습 모델. 스타일, 옷, 인물 얼굴 등을 추가 학습 가능

 

LoRA는 모델에 추가로 결합할 수 있는 플러그인 같은 역할을 하며, 여러 개를 동시에 사용할 수도 있습니다.

 


 

제어 기능(ControlNet)

 

Stable Diffusion에서 이미지 생성의 제어력을 높이는 기능입니다.

 

  • Depth: 이미지에서 거리 정보를 인식
  • Pose (자세): 인물의 포즈를 인식하고 반영
  • Outline (외곽선): 특정 외곽선을 유지하며 스타일만 변경
  • Scribble (낙서): 손그림 수준의 스케치로 원하는 형태 전달

 

이런 기능들을 통해 더 높은 정밀도와 일관성을 확보할 수 있습니다.

 


 

도구 소개

 

  • Forge: Midjourney에 익숙한 사용자에게 추천. 단순한 프롬프트 기반 생성 도구
  • ComfyUI: 복잡하지만 유연한 워크플로우 구성 가능

 

ComfyUI에서는 다양한 요소(프롬프트, 모델, ControlNet, 카메라 등)를 블록처럼 연결해서 커스터마이징할 수 있습니다.

 


 

두 번째 빙산: 진짜 실력

 

지금까지 소개한 AI 도구들은 표면적인 기술에 불과합니다.

진정한 AI 영화 제작자가 되려면 다음과 같은 기초 실력이 필요합니다:

 

  1. 전통적인 크리에이티브 소프트웨어
    • Photoshop
    • Premiere
    • Blender 등
  2. 스토리텔링의 기본기
    • 스토리 구조
    • 미디어 소비 & 분석
    • 각본 작성 기초

 

결국 AI가 주는 자동화만으로는 섬세한 편집과 디렉션, 창의성을 대신할 수 없습니다.

 


이 수업이 AI 이미지 생성과 고급 기능에 대한 개요로 도움이 되었기를 바랍니다.

이제 여러분 차례입니다. 직접 무언가를 만들어보세요.

반응형