디자이너가 프롬프트 제대로 쓰는 법

이 글은 AI 리터러시 전문 미디어 [에이릿]에서 발행되었습니다.
AI 시대, 리터러시 감각을 키울 수 있는 콘텐츠가
매일 발행됩니다. 지금 확인해 보세요!
[읽어보러 가기]

프롬프트를 공들여 썼다.
레퍼런스를 분석했고, 무드를 정의했고, 스타일 키워드를 골랐다.
그리고 생성 버튼을 눌렀다.

나온 이미지는 생각했던 것과 달랐다.

“내가 뭘 잘못 쓴 걸까”라고 생각했다면, 그 질문 자체를 다시 봐야 한다. 프롬프트 작성 방식의 문제가 아닐 수 있다. 텍스트가 이미지로 변환되는 구조 자체의 문제일 수 있다.

기획서를 읽는 사람, 프롬프트를 처리하는 AI

기획서는 사람이 읽는다.

“미니멀하게 가되, 브랜드의 따뜻함은 유지해주세요.”
이 한 줄을 읽은 시니어 디자이너는 행간을 채운다.
여백의 비율, 컬러 팔레트의 온도, 타이포의 무게감.
배경 지식과 경험이 빈 곳을 채운다.

AI는 행간을 읽지 않는다. 단어를 숫자로 바꾼다.

미니멀이라는 단어는 AI에게 특정 수치의 벡터 좌표다. 학습 데이터에서 미니멀과 함께 등장했던 이미지들이 통계적으로 모인 지점. 거기에 따뜻함이라는 좌표가 더해지면, 두 방향의 평균 어딘가를 향해 이미지가 생성된다.

당신이 기획서에서 의미한 우리 브랜드의 미니멀함은 그 평균값과 다를 수 있다. 대부분의 경우, 다르다.

1편에서 등장한 CLIP, 그 안에서 생기는 일

1편에서 CLIP을 소개했다. CLIP(Contrastive Language-Image Pre-training)은 2021년 OpenAI가 발표한 멀티모달 모델로, 4억 쌍의 이미지-텍스트 데이터로 학습됐다.

CLIP은 텍스트와 이미지를 같은 잠재 공간(latent space)에 올려놓는다. 고양이라는 단어와 고양이 사진이 그 공간에서 가까운 좌표에 배치되도록 훈련됐다. 이 구조 덕분에 프롬프트가 이미지 생성의 방향을 잡을 수 있다.

문제는 그 공간이 완전하지 않다는 데 있다.

번역가를 떠올려보면 이해가 쉽다. 아무리 뛰어난 번역가도 원문의 뉘앙스를 100% 살리지 못한다. 언어와 언어 사이에는 구조가 다른 부분이 있어서, 옮기는 과정에서 반드시 무언가가 사라진다.

텍스트와 이미지 사이도 마찬가지다. 프롬프트가 이미지 공간으로 건너가는 순간, 손실이 생긴다. 그 손실은 세 군데에서 일어난다.

세 곳에서 새는 것들

첫 번째: 77개의 물리적 한계

Stable Diffusion이 쓰는 CLIP 텍스트 인코더는 최대 77개의 토큰만 처리한다. 실제로 사용 가능한 자리는 75개고, 나머지 2개는 시스템 토큰이 차지한다.

77 토큰을 넘어가면 어떻게 될까. 잘린다. 그것도 조용히. 오류 메시지 없이 뒷부분을 그냥 버린다.

영어 기준으로 77 토큰은 대략 50단어 내외다. 세 줄이면 넘어간다. 정성껏 쓴 프롬프트의 후반부를 AI는 읽지 않았을 수 있다.

두 번째: 텍스트와 이미지 사이의 거리

잠재 공간에서 텍스트 벡터와 이미지 벡터는 완전히 같은 자리에 있지 않다. 이를 모달리티 갭(modality gap)이라고 부른다. 텍스트 영역과 이미지 영역은 공유 공간 안에서 서로 다른 구역에 밀집해 있다.

당신이 쓴 프롬프트가 이미지 공간으로 넘어갈 때, 그 거리만큼 의미가 어긋난다. 원문과 번역본이 다른 것처럼.

세 번째: 이미지가 가진 압도적인 정보량

사진 한 장에는 텍스트 설명보다 훨씬 많은 정보가 있다. 빛의 방향, 재질의 질감, 공간의 깊이감, 색의 미세한 차이. 이미지는 텍스트가 담을 수 없는 정보를 픽셀 하나하나에 담고 있다.

당신의 프롬프트는 AI가 만들 이미지의 정보 중 일부만 지정한다. 나머지는 AI가 통계적으로 채운다. 그 통계적 채움이 당신의 의도와 맞지 않을 때 결과물이 어긋난다.

디자이너에게 남는 것

프롬프트를 잘 쓰면 결과가 좋아진다. 그건 맞다.

다만 잘 쓴다의 의미가 기획서를 잘 쓰는 것과 다르다. 기획서는 의도와 맥락을 전달한다. 프롬프트는 벡터 공간에서 목표 지점을 좁혀가는 작업이다.

추상적인 형용사보다 구체적인 명사가 효과적인 이유가 여기에 있다. 감성적으로보다 Wes Anderson 영화 스틸컷처럼이 더 좁은 좌표를 가리킨다. AI는 그 좌표를 학습 데이터에서 통계적으로 확인했을 가능성이 높다.

같은 주제로 두 가지 프롬프트를 비교해보면 차이가 보인다.

기획서 같은 프롬프트:

아늑한 거실 풍경, 소파와 나무 테이블, 빈 방에 장식된 식물이 있는 모습.

GPT Image 2.0 생성

우리 브랜드 감성에 맞는 이미지. 미니멀하지만 따뜻하고 감성적인 느낌. 타깃은 30대 직장인, 바쁜 일상 속에서 여유를 찾는 사람의 공간. 과하지 않게 세련되고 차분한 무드. 차갑지 않은 색감, 공간감 있게.

AI가 여기서 확실히 잡을 수 있는 좌표는 많지 않다. 미니멀, 따뜻한, 감성적인, 세련된, 차분한. 모두 추상 형용사다. 학습 데이터에서 이 단어들이 특정 이미지와 명확하게 쌍을 이룬 경우가 많지 않다. AI는 이 단어들의 평균값 어딘가를 향해 이미지를 만든다.

잘 다듬어진 프롬프트:

밝은 차분한 색상의 방 안에 나무 책상이 놓여 있다. 책상 위에는 노트북과 컵, 책이 있으며, 창문으로 햇빛이 들어오고 잔잔한 커튼이 드리워져 있다.

GPT Image 2.0 생성

35mm 필름 사진. 미니멀 홈 오피스. 얇은 커튼 사이로 스며드는 아침 햇살. 따뜻한 베이지 톤. 아웃포커스. Kinfolk 매거진 스타일. 조용한 고급감.

단어마다 학습 데이터에서 이미지와 짝을 이룬 구체적인 좌표가 있다. 35mm 필름, Kinfolk 매거진, 아웃포커스. AI가 수백만 장의 이미지에서 통계적으로 확인한 패턴들이다.

달라진 건 설명의 양이 아니다. 설명의 방식이다. 기획서는 맥락과 의도를 전달한다. 잘 다듬어진 프롬프트는 좌표를 지정한다.

이 구조를 이해하면 두 가지가 달라진다.

기대치를 현실적으로 잡을 수 있다. AI가 구조적으로 놓칠 수밖에 없는 부분이 있다는 걸 알면, 그 자리에 당신의 판단을 개입시킬 시점이 보인다. AI가 만든 이미지를 출발점으로 쓰는 게 자연스러워진다.

그러면 질문 하나.

당신이 프롬프트에서 전달하려 했던 것 중, AI가 처음부터 읽을 수 없는 부분이 있다면 어디인가. 그리고 그 자리는 지금 누가 채우고 있는가.

FAQ

프롬프트를 길게 써도 효과가 없는 이유가 뭔가요?

Stable Diffusion 계열 모델이 쓰는 CLIP 텍스트 인코더는 77개 토큰 한계가 있다. 이를 초과한 부분은 오류 없이 잘려나간다. 실제 사용 가능한 자리는 75개. 영어 기준으로 약 50단어, 한국어로는 그보다 짧다. 긴 프롬프트보다 핵심 키워드를 앞쪽에 배치한 짧은 프롬프트가 더 효과적인 경우가 많다.

모달리티 갭이 실제로 어떻게 느껴지나요?

텍스트로 정확히 설명했는데 결과물이 미묘하게 다를 때다. AI가 못 알아듣는 게 아니라, 텍스트 벡터와 이미지 벡터가 같은 잠재 공간에서도 완전히 겹치지 않기 때문에 생기는 구조적 차이다. 감수성, 뉘앙스, 계층 구조처럼 통계적으로 정의하기 어려운 개념일수록 갭이 크다.

추상적인 형용사가 구체적인 명사보다 덜 효과적인 이유가 뭔가요?

CLIP은 학습 데이터의 통계적 패턴으로 단어와 이미지를 연결한다. 외로운, 감성적인 같은 추상 형용사는 학습 데이터에서 이미지와 명확하게 쌍을 이루지 못한다. 반면 특정 감독 이름, 영화 제목, 작가명, 시대명은 이미지-텍스트 쌍이 풍부해서 벡터 좌표가 더 선명하게 잡힌다.

프롬프트 엔지니어링을 배우면 이 한계를 극복할 수 있나요?

줄일 수는 있지만 없앨 수는 없다. 프롬프트 기술은 벡터 공간에서 목표 좌표를 좁히는 방법이다. 구조적 손실 자체는 모델이 설계된 방식에서 오기 때문에, 프롬프트만으로 해결되지 않는 부분이 있다. 이 한계를 아는 것 자체가 AI를 도구로 쓰는 방식을 바꾼다.

디자이너는 AI 이미지 생성을 어떻게 쓰면 효과적인가요?

완성본 생성 도구가 아니라 방향 탐색 도구로 쓰는 게 현실적이다. AI가 놓치는 부분, 즉 레이아웃 계층, 브랜드 고유성, 맥락 의존적 판단은 사람이 개입해야 하는 자리다. AI가 만든 결과물을 출발점으로 두고 거기서 편집과 판단을 더하는 워크플로우가 구조에 맞는 방식이다.

AI 읽는 법을 알려드립니다
AI 리터러시 전문 미디어 <에이릿> 바로가기

AI-LIT 미디어브레인 · 에디터

팔로우 🙌 커피챗

댓글이 없습니다.

기획서를 읽는 사람, 프롬프트를 처리하는 AI

1편에서 등장한 CLIP, 그 안에서 생기는 일

세 곳에서 새는 것들

디자이너에게 남는 것

FAQ

AI 읽는 법을 알려드립니다AI 리터러시 전문 미디어 <에이릿> 바로가기

AI 읽는 법을 알려드립니다
AI 리터러시 전문 미디어 <에이릿> 바로가기