AI 분야 바깥의 사람들과 이야기를 나눌 때 자주 듣는 말 중 하나는, 마치 “마법의 버튼” 같은 것이 있어서 단지 프롬프트만 입력하면 멋진 영화가 뚝딱 만들어진다는 오해입니다. 물론 여러분은 이걸 믿지 않겠죠. 여러분은 Curious Refuge 수강생이기 때문에, AI 영화 제작이 많은 지식과 노력이 필요한 과정이라는 걸 알고 있을 겁니다. 그런 마법의 버튼은 존재하지 않습니다.
여러분이 이미 사용해봤을지도 모를 Midjourney, Runway, ChatGPT 같은 도구는 사실 생성형 AI의 빙산의 일각에 불과합니다. 지금까지 여러분이 해왔던 건 기본적인 프롬프트 입력 수준이며, 이런 도구들을 활용해도 굉장히 좋은 결과를 낼 수 있지만, 그 안에는 **많은 무작위성(randomness)**이 존재합니다. 그래서 예고편, 광고, 인상적인 짧은 영상 정도는 만들 수 있지만, 특히 정밀함과 연출이 핵심인 애니메이션 분야에서는 원하는 결과에 도달하기 어렵습니다.
물론 어떤 분들은 “Midjourney에도 인페인팅 기능이 있고, Runway에서도 통제 가능한 멋진 기능들이 출시되고 있다”고 말할 수 있죠. 맞습니다. 그래서 이 ‘표면’은 점점 더 발전하고 있습니다. 그러나 훨씬 더 높은 품질의 결과를 얻기 위해서는, 표면 아래에 있는 여러 도구들을 이해하고 다루는 것이 필수입니다.
이제 잠깐 뒤로 물러나, AI에 대한 몇 가지 기본 개념을 다시 짚고 가겠습니다.
AI 이미지 생성의 기본
텍스트-이미지(Text to Image)
AI에게 “비싼 카메라를 든 웃고 있는 영화학도”라고 입력하면, 그에 맞는 이미지를 생성합니다.
이미지-이미지(Image to Image)
기존 이미지를 기반으로 비슷한 이미지를 생성하면서, 새로운 프롬프트를 반영합니다. 예를 들어 “젊은 영화학도” 사진을 “60세 영화감독”으로 바꿀 수 있습니다.
스타일 변경
단순히 콘텐츠뿐 아니라 스타일도 바꿀 수 있습니다. 예: “스톱모션 클레이 애니메이션” 스타일로 변화.
이미지-비디오(Image to Video)
예: Tobias라는 동료가 1980년대의 스타디움 항공샷이 필요했지만 자료가 없었음. 결국 AI(Runway)를 이용해 정적인 사진을 짧은 영상으로 변환했고, VHS 필터를 입혀 아카이브 영상처럼 사용함.
비디오-비디오(Video to Video)
기존 영상을 입력하고 새로운 스타일(예: 스톱모션)로 변환할 수 있습니다. 품질은 높지 않지만, 가능성은 매우 유용합니다.
AI가 할 수 없는 것들
- 전체 장면을 완성도 있게 만드는 것은 아직 불가능
- 자신의 결과물 품질을 이해하거나 개선할 수 없음
- 지금 만들어진 이미지의 수준을 스스로 판단하지 못함
- 문맥을 이해하거나 일관성을 유지하지 못함 (ex. 같은 인물이 다른 각도에서도 동일하게 보이게 하기)
→ 그래서 일관성과 캐릭터 유지를 위한 다양한 기법들을 수업에서 소개할 예정입니다.
디퓨전(Diffusion)이란?
디퓨전은 AI 이미지 생성기의 핵심 원리입니다.
무작위 노이즈에서 시작해 점차 픽셀을 재배열하여 텍스트에 맞는 이미지로 만들어갑니다.
이는 단순히 “이미지를 복사해서 콜라주하는 것”이 아니라, 학습한 개념을 기반으로 픽셀을 새로 만들어내는 것입니다.
레이턴트 스페이스(Latent Space)
AI가 수백만 개의 이미지를 학습하면서 구성한 개념의 지도입니다.
예: ‘핑크’, ‘말’, ‘실내’ 같은 요소들을 연결해, “핑크 선글라스를 쓴 말” 같은 조합된 이미지를 생성할 수 있습니다.
두 가지 모델 접근 방식
- 오픈소스 모델 (Stable Diffusion, Flux 등)
- 다양한 파인튠 모델과 LORA로 확장 가능
- ControlNet과 같은 추가 통제 가능
- 자유로운 주제 표현, 오프라인에서도 사용 가능
- 무료 (또는 GPU 시간만 지불)
- 클로즈드 모델 (Midjourney, Runway)
- 간편한 사용, 즉시 결과, 고화질 출력
- 프롬프트 경험이 부족해도 영화 같은 결과를 빠르게 얻을 수 있음
- 하지만 통제력은 부족하며 제한된 설정 존재
파인튠 & LORA
- 파인튠 모델: 기본 모델보다 특정 스타일이나 품질이 향상된 모델 (예: Juggernaut 모델)
- LORA (Low-Rank Adaptation): 작은 용량으로 특정 인물이나 스타일을 추가 학습시켜주는 보조 모델. 예: 폴라로이드 스타일, 특정 인물 얼굴 고정
이미지 통제를 위한 기술: ControlNet
- 포즈 인식: 원하는 자세를 이미지로 주면 그 형태를 따름
- 깊이 정보: 카메라에 가까운 부분은 밝게, 먼 곳은 어둡게 분석해 공간감 반영
- 윤곽선: 같은 포즈/장면을 다른 캐릭터로 재사용
- 스크리블: 간단한 스케치를 기반으로 창의적인 이미지 생성
고급 도구: ComfyUI
- ComfyUI는 모듈형 워크플로우 시스템으로, 각 기능을 노드 형태로 연결해 자유롭게 구성 가능
- 예: 웹캠으로 사진 촬영 → ControlNet으로 포즈 추출 → 특정 모델과 조합 → 결과 이미지 출력
- 얼굴, 손, 조명 등도 각각 개선 가능
- 로컬 사용도 가능하고 RunComfy.com 같은 웹 기반 서비스에서도 활용 가능
진짜 빙산 아래: 창작의 기본기
AI 도구만으로는 완전한 결과물을 만들기 어렵습니다.
Photoshop, Premiere, Blender 같은 전통적인 툴의 숙련도가 반드시 필요합니다.
그보다 더 중요한 건 스토리텔링의 기본기입니다.
책을 많이 읽고, 영화를 분석하고, 서사 구조를 이해하는 것이 진짜 중요한 핵심입니다.
이 수업은 AI 이미지 생성과 더불어, 보다 정교하고 창의적인 영화 제작을 위한 기반 기술과 사고 방식을 함께 다룰 것입니다. 이제 여러분이 직접 창작에 뛰어들 차례입니다.
필요하다면 각 도구나 개념에 대해 더 깊이 설명해 드릴 수 있어요.
'AI' 카테고리의 다른 글
ComfyUI 설정하기 - 온라인 (0) | 2025.06.06 |
---|---|
ComfyUI 설치하기 (0) | 2025.06.06 |
AI 이미지 생성 기초 (0) | 2025.06.05 |
ChatGPT를 활용한 시나리오 작법 (0) | 2025.06.05 |
스토리텔링 댄 하몬의 스토리 서클(Dan Harmon’s Story Circle) (0) | 2025.06.05 |