Generative AI의 모든 것 (배경,기술,사례,미래)

투자 생태계가 경색되고 있는 가운데 호황을 누리고 있는 몇 안되는 분야가 있는데요.

바로 ‘생성 AI (Generative AI)’입니다.

생성 AI는 글로 명령을 하면 글, 그림, 비디오 등을 만들어 주는 AI도구를 말합니다.

작년에 출시된 기초 이미지 생성 모델 ‘달리 (Dall-E)’에 이어 올 12월초 자연어 처리 모델 ‘챗GPT (ChatGPT)’가 릴리스되면서 생성 AI에 관한 관심이 대폭 증가했는데요.

Stable Diffusion vs Midjourney vs DALL.E2

더욱 놀라운 것은 우리가 지금 목격 중인 생성 AI의 놀라운 성능은 시작에 불과하다는 것입니다.

‘깃허브(GitHub)’ 소스코드 저장소에서 기초 이미지 생성 모델인 '스테이블 디퓨전(Stable Diffusion)'에 달린 '스타(Star, 일종의 즐겨찾기)' 숫자가 수직상승 중인 것을 보면 알 수 있습니다.

What is Stable Diffusion 2.0? - by Michael Spencer

'생성 AI가 블록체인처럼 화르륵 타오르다 금방 식지는 않을까?'라는 질문엔 저는 생성 AI의 인기가 앞으로도 지속 될 거라고 생각되는데요. 몇 가지 이유는 다음과 같습니다.

사람의 창의성이 필요한 활동에 들어가는 시간과 비용을 획기적으로 줄여주는 실질적인 가치 창출
2D/3D 객체는 물론, 콘셉 디자인, BGM, 애니메이션, 대본, 마케팅/세일즈 글 등 다양한 사용 범위
복잡한 로그인, 인증 등의 절차 없는 편리한 접근성

오늘 글에서는 생성 AI 기술 중 ‘오픈AI (OpenAI)’에서 만든 자연어 처리 모델인 GPT 시리즈의 탄생 배경, GPT 기술을 활용해 돈을 벌고 있는 사례들, 생성 AI 기술이 사회 곳곳에 스며든 미래의 모습과 미래 일자리에 대해서 다루겠습니다.

생성 AI기술의 배경

(기술 이야기가 조금 지루하다면 아래 ‘사례’나 ‘일자리’ 파트로 스킵하세요!)

OpenAI debuts new conversational AI system - SiliconANGLE

생성 AI 이야기에 빠질 수 없는 회사가 있죠. 바로 오픈AI입니다. 오픈AI는 2015년 일론 머스크와 YC의 샘 알트만이 창업한 AI 연구소인데요.

당시 링크드인 창업자 리드 호프만과 페이팔 창업자 피터틸 등의 레전드급 창업가들이 1.3조 원을 투자해 설립되었다고 합니다.

(TMI: 2018년 일론 머스크는 테슬라 사내 AI 프로젝트와 이해관계 상충 이유로 오픈AI 경영 일선에서 물러났지만, 오픈AI의 공식 후원자 타이틀을 유지 중인데요. 그러다 일론이 최근에 GPT 모델의 학습에 필요한 트위터 글의 액세스를 거부하는 등 오픈AI와 대립적인 관계가 벌어지고 있다고 합니다)

Elon Musk's history with ChatGPT maker OpenAI as told by ChatGPT | Fortune

오픈AI는 크게 2 가지 기술로 유명해졌습니다:

자연어 생성 모델 ‘GPT 시리즈’ (코드 생성 모델 ‘코덱스 (Codex)’도 여기에 포함)
기초 이미지 생성 모델 ‘달리 (Dall-E)’

GPT 시리즈를 조금 더 깊게 들여다 볼까요?

GPT 기술의 진화

GPT-1은 2018년, GPT-2는 2019년, 그리고 GPT-3은 2020년에 출시되었는데요.

아마 대부분 사람들이 GPT라는 단어를 처음 접하게 된 것은 2022년 11월에 GPT-3.5와 이 기술을 적용한 챗GPT 서비스가 세상에 나오게 되면서 였을겁니다.

GPT 기술이 출시 된 게 4년 전인데 지금 관심을 받게 된 이유는 무엇일까요? GPT-3.5는 이전 GPT 1~3과 어떤 차별점이 있었을까요?

GPT-3.5의 특징

GPT-3.5 이전의 모델에서는 사용자가 다음 두 가지를 해야 원하는 만족도 높은 답을 얻을 수 있었습니다:

명확한 요청(prompt)
요청에 대한 답변 예시

예시를 한 개(one-shot)를 추가했을 때보다 여러 개(few-shots)를 입력했을 때 답변의 퀄리티가 높아졌는데요.

그런데 이게 얼마나 번거로운 일인가요?

요청을 잘하는 것도 귀찮은데, 요청이 조금이라도 명확하지 않으면 이상한 답이 생성되고, 나도 모르는 답의 예시를 몇개 작성해야 하는게 쉽지 않았을 겁니다.

Annoying Meme Generator - Imgflip — ‘아 증말 귀찮게 하네…’

하지만 GPT-3.5는 2022년 초에 발표된 ‘인스트럭트GPT (InstructGPT 모델)’을 기반으로 예시 답변 없이 (zero-shot) 사용자 요청만으로 요청의 맥락과 어떤 태스크를 수행해야 하는지를 인지하고 거기에 맞는 최적의 답변을 생성할 수 있게 되었다고 합니다.

이게 가능했던 것은 물론 매개변수(parameter)가 대폭 늘었던 것도 있지만 (GPT-2: 15억 개, GPT-3: 1750억 개!), 모델 훈련 방법을 개선한 것도 큰 몫을 한 것으로 보입니다.

GPT-3.5의 모델 학습 방법

Aligning Language Models to Follow Instructions — 인스트럭트GPT 모델 훈련 방법 (오픈AI)

기존 GPT-1 ~ 3에서 라벨 없는 데이터를 사용해 모델을 학습하는데 그쳤다면, 인스트럭트GPT 모델 훈련 과정은 다음과 같이 개선되었습니다.

모델 추가 학습 (fine-tuning) : 오픈AI에서 40명 정도의 전문가들을 모셔 랜덤한 사용자 요청에 대한 답변을 직접 작성한 다음 모델의 매개변수를 수정해서 모델 고도화
리워드 모델 : GPT 모델이 생성한 여러 답변을 전문가들이 랭킹한 다음, 모델이 사람의 랭킹과 비슷하게 랭킹할 때 리워드 받을 수 있는 별도 모델 구축
강화 학습 : 기존 라벨 없는 데이터 자동 학습 + 위 1, 2를 결합해 사용자 요청에 대한 답변 퀄리티를 자동으로 높이는 강화 모델 구축

이처럼 GPT-3.5는 단순히 매개변수와 데이터 학습량의 절대량이 증가했을 뿐만 아니라 그 많은 데이터를 효과적으로 학습할 수 있도록 모델을 고도화해서 눈에 띄는 성과를 낼 수 있었다고 볼 수 있습니다.

GPT로 돈 벌고 있는 스타트업

’재스퍼 (Jasper)'

Jasper Ai Review: Is It The Best Ai Copywriting Tool? 2022

재스퍼는 GPT-3.5를 활용해 기업 또는 개인의 마케팅과 세일즈 글을 작성해주는 AI 서비스입니다.

재스퍼는 이럴 때 사용하면 좋습니다

예시 1) 자기계발 인플루언서가 트위터 팔로워 수를 늘리기 위해 팬들이 관심 있어 할 주제에 대한 글을 작성하고 싶을때
예시 2) 기업 세일즈 팀에서 제품 구매율을 높이기 위해 설득력 있는 구매 요청 메일을 쓰고 싶을때
예시 3) 기업 마케팅 팀에서 새로 출시한 제품에 대한 블로그 글을 서치엔진 키워드 노출이 잘되게 글을 정리하고 싶을때

재스퍼의 특징

키워드 몇개 입력과 클릭 몇 번으로 원하는 글을 뚝딱 생성 가능
그것도 단 하나의 버전이 생성되는 게 아니라 여러 개 버전이 생성되기 때문에 사용자는 각 드래프트를 읽어보고 마음에 드는 것을 고르면 됨
고른 드래프트 내용 중 마음에 안 드는 부분만 빼서 수정하면 되기 때문에 커스터마이징도 편리
내가 쓴 글을 ‘스티브 잡스 스타일로 바꿔줘’하면 정말 스티브 잡스가 글을 쓴것처럼 글이 간결해지고 무게감이 실려 마치 글을 잡스 형님이 쓰신 것처럼 바뀜
최근에 크롬 웹브라우저 익스텐션(플러그인)을 출시해 사용자는 재스퍼 웹페이지에 들어가지 않아도 재스퍼 기능을 노션, 이메일, 블로그 페이지 등에서 바로 사용 가능

회사 소개

How Jasper is making AI the future of content creation in the enterprise · Bessemer Venture Partners

이런 마술 같은 서비스를 만든 창업자 Dave Rogenmoser는 2018년 YC 얼럼나이 출신입니다.

당시 창업한 스타트업이 잘 안 되자 뭐하지 고민하다 생성형 AI를 2020년에 발견해 바로 다음 해 1월에 재스퍼를 창업하게 됩니다.

첫 해에 유료 고객 7만 명을 확보하고 548억 원의 매출 달성합니다. 그리고 2022년에는 유료 고객 10만 명을 확보하고 매출은 거의 두배인 1,028억 원을 코앞에 두고 있습니다.

더욱 대단한 것은 2년도 채 되지 않아 벨류에이션 2조 원에 1,607억 원의 누적 투자금을 유치했다는 것입니다.

직원수도 몇십 9명에서 지금 거의 150명 정도로 급격히 늘었다네요.

개인적인 생각

사실 재스퍼는 무료인 챗GPT나 GPT-3.5를 직접 체험할 수 있는 Playground와 거의 같은 기능을 선보이고 있는데요. 어쩌면 재스퍼 사용자들이 무료인 챗GPT에 끌려 재스퍼 사용을 중단할 수도 있겠습니다.

하지만 재스퍼는 챗GPT와 달리 포지셔닝을 ‘마케팅과 세일즈 팀을 위한 솔루션’으로 뾰족하게 정의했다는 점과 고객의 편의를 극대화하기 위해 크롬 익스텐션을 제공하고, 직관적인 UI를 입혔다는 점에서 재스퍼의 성공은 앞으로도 지속되지 않을까 싶습니다.

AUM 1위 테크 VC인 ‘앤드리슨 호로위츠 (Andreessen Horowitz)’에서 최근 작성한 아티클에선 GPT나 달리의 핵심 기술보다 그 기술을 특정 산업에 뾰족하게 적용했을 때 진정한 경제적 가치가 창출될 수 있을 거라 분석했는데, 재스퍼가 이를 잘 보여주는 좋은 사례라고 생각합니다.

아무리 좋은 프로덕트가 있어도 그 좋은 걸 마케팅으로 잘 전달할 수 없고 UI가 불편하면 유저의 지속적인 사랑을 받기 어렵다는 것을 다시 한 번 느끼게 되었습니다.

’인월드 (inworld.ai)’

Inworld AI raises $50M to populate games and the metaverse with smart characters | VentureBeat

게임에 몰입감을 극대화하려면 무엇이 중요할까요?

매력적인 게임 스토리, 멋진 비주얼과 음악, 게임을 다시 했을 때 새로운 변수의 끊임 없는 등장 등 여러 가지가 있겠죠.

인월드에서는 게임에 몰입감을 더하기 위해 NPC에 life를 불어넣었습니다.

‘프리가이 (Free Guy)’ 영화를 보셨다면 제가 무슨 말을 하려고 하는지 이해하실 겁니다.

Free Guy - Disney+ Movie - Where To Watch

사용자가 NPC와 대화할 때 프로그램된 똑같은 이야기를 반복적으로 듣는 게 아니라, NPC는 사람처럼 과거 대화를 기억하고, 자신의 성격과 지식수준에 맞게 대화를 이어갈 수 있다는 것이죠. NPC가 아닌 사람처럼요.

지금까지 게이머들이 사이드 퀘스트에 시간을 많이 쏟았다면 앞으론 살아 있는 듯한 NPC가 등장하면서 다양한 NPC와 관계를 쌓는 재미에 푹 빠지게 되지 않을까 싶습니다.

인월드는 이럴 때 사용하면 좋습니다

예시 1) 뻔한 스크립트를 낭독하는 NPC가 아닌 사용자와 대화를 이어갈 수 있는 NPC를 만들고 싶은 게임 개발사
예시 2) NPC의 디자인 (목소리, 얼굴과 몸 형태, 표정 자율도 등)을 맨땅에서 전부 하나하나 만들지 않고 원스탑으로 끝내고 싶은 개발사
예시 3) 특정 캐릭터 성격을 론칭 전에 시뮬레이션하고 싶어하는 영화 스튜디오

인월드 특징

Inworld AI raises $10M to develop AI- powered virtual characters for games | VentureBeat

게임 개발사는 인월드에서 제공하는 스킨 패키지로 원하는 NPC의 모습을 만들수 있고, 인월드 기술로 몇개 키워드 입력과 클릭만으로 NPC의 성격, 나이, 말투 등을 뚝딱 생성
생성된 NPC를 별도 연동 없이 원하는 게임엔진(유니티, 언리얼 엔진 등)으로 바로 옮길 수 있음

회사 소개

2021년 설립된 해에 바로 100억 매출을 기록한 대단한 스타트업입니다.

2년 안에 900억 원 투자를 유치했고, 들어가기 그렇게 어렵다는 디즈니 억셀러레이터 프로그램(1년에 ~6개 회사 선발)에 선정되기도 했습니다.

최근 투자 라운드에서 메타가 참여한 것도 재미있네요.

개인적인 생각

인월드 이야기하다 잠시 다른 길로 잠시 샐게요.

게임 개발에 들어가는 비용의 40%는 애셋 생산 (콘셉, 스토리, 2D/3D 애셋, BGM 등)에 들어간다는 사실 아셨나요?

예를 들어 ‘레드 데드 리뎀션 2 (Red Dead Redemption 2)’ 게임의 BGM만 만드는 데 오케스트라를 고용해 80시간의 녹음을 진행했다고 합니다. RDR2가 출시되는 데 8년이나 걸렸다는 게 놀랍지 않죠.

앤드리슨 호로위츠 VC에 따르면 생성형 AI 기술이 게임 애셋 생산 비용이 무료에 가까울 정도로 낮아질 거라고 보고 있습니다.

달리, 스테이블 디퓨전 등의 기초 이미지 생성 모델로 게임의 콘셉과 모든 2D/3D 애셋을 생성할 수 있고, GPT로 게임 캐릭터의 대사를 자연스럽게 리얼타임으로 생성할 수 있는 등 생성형 AI가 가장 파격적으로 뒤흔들 산업은 게임이 되지 않을까 하는 생각이 듭니다.

그런 맥락에서 이번 글의 마지막 주제로 남어 가면 …

생성형 AI가 지배하는 미래의 모습과 일자리

below/above the API

메타버스가 뜬다는 소문에 블렌더, 유니티, 언리얼 엔진 등의 게임 제작 툴에 대한 관심이 아주 높았는데요.

그 관심이 지속할지는 의문입니다.

요즘 생성형 AI의 발전으로 사람이 직접 툴을 활용해 3D 애셋을 만들기보다, 키워드 몇개 입력만으로 달리가 훨씬 더 빠르고 멋진 3D 애셋을 생성할 수 있다는 게 증명되고 있기 때문이죠.

포브스에서 ‘below the API’, 즉 기계의 요청을 행동으로 옮기는 모든 직업이 사라질 거라고 분석했습니다.

예를 들어 배민 라이더, 심부름 앱, 카카오 택시 등 기계가 사람한테 어떤 태스크를 요청해야 사람이 움직이는 모든 일은 ‘below the API’라고 생각하면 됩니다.

생성형 AI의 등장으로 ‘below the API’가 창의적 영역까지 침범하게 되면서 많은 사람이 당황하기 시작했습니다.

’헉…이거 내가 만든 작품이랑 너무 비슷하잖아!’

Lensa AI, a popular yet questionable AI portrait app - India Today

지난 11월 말에 애플 앱스토어 포토/비디오 차트에서 틱톡, 인스타그램 등을 제치고 1위 차지한 스타트업이 있었다는 사실 아셨나요?

2018년 출시 이후 누적 다운로드 2,200만, 매출 380억 원을 달성한 ‘렌사 AI (Lensa AI)’입니다.

렌사AI는 사진을 예쁘게 편집하는 나름의 흔한 앱에 불과했는데, 지난 11월 말에 ‘매직 아바타’라는 서비스를 추가하면서 큰 인기를 누리게 되었습니다.

‘매직 아바타’는 10~20장의 셀카를 올리면 AI가 다양한 테마의 디지털 초상화 수백장을 자동으로 제작해주는 서비스입니다.

렌사AI로 생성된 초상화 이미지 (렌사 AI)

많은 사용자들이 자신의 업그레이드된 예쁜 모습을 보면서 만족해 렌사AI에서 생성한 자신의 이미지를 SNS 프로파일로 업로드하는 등 무서운 속도로 서비스가 바이럴하게 퍼졌습니다.

렌사AI는 AI생성 이미지로 처음 돈 번 회사로 많은 스타트업들의 부러움을 샀지만, 반대로 렌사AI의 성공을 마음 아파하는 사람들도 있었는데요.

바로 아티스트들입니다.

718 Frustrated Artist Woman Stock Photos - Free & Royalty-Free Stock Photos from Dreamstime

렌사AI에서 온라인에 있는 수천만개의 이미지를 학습해 멋진 디지털 초상화를 생성할 수 있었는데, 학습한 수천만개의 이미지에 대한 저작권료를 지급하지 않아 아티스트 입장에서는 렌사AI가 자신의 작품을 도용한 것과 마찬가지라고 주장합니다.

하지만 문제는 그리 간단하지 않습니다.

렌사AI에서 사용한 기초 이미지 생성 모델 스테이블 디퓨전은 오픈소스로 제공되고, 이미지 데이터셋(Laion-5B)은 연구 목적으로 인터넷에 올라온 이미지를 수집한 것이기 때문에 저작권 이슈가 없습니다.

하지만 오픈소스 모델과 연구목적의 데이터로 수익화를 한 게 렌사AI가 처음이라 렌사AI가 실제로 아티스트들의 저작권을 침해했는지는 앞으로 더 지켜봐야 할 것으로 보입니다.

어찌되었건 간에 창의성을 발휘해 세상에 즐거움을 주고 있는 많은 사람의 인생이 앞으로 조금 더 어려워질 우려가 있어 보입니다.

새로운 기회, 누구나 누릴 수 있을까?

Networking: Do you know who I think I am? | Career Development

생성형 AI 기술이 발전함에 따라 여러 기회가 부상 중인 것으로 보이는데요.

AI/ML : 2022년 9월에서 11월 사이 미국 S&P 500 기업에서 월 평균 AI/ML 관련 채용 공고 7,000개(누적 21,000)가 올라왔다고 합니다.
Prompt engineer : 생성형AI를 통해 원하는 결과를 얻기 위해 높은 퀄리티의 아웃풋을 만들어주는 요청문구(prompt)를 대신해서 작성해주는 업무가 요즘 뜨고 있는 것으로 보이기도 합니다 (prompt 하나에 50~200 달러 받는 사례도 있음).
Creative director : 생성형 AI를 사용해 똘똘한 한두명이 creative process 전체를 기획해 영화, 게임 등의 영역에서 마이크로 스튜디오가 대거 등장할 거라는 의견도 있습니다.
특정 산업 / 기능(function)에 특화된 프로덕트 : GPT나 Dall-E 기술을 활용해 특정 산업이나 기능을 수행하고 싶어하는 사용자를 위한 신규 프로덕트를 뚝딱 만들 수도 있습니다.

하지만 생성형 AI의 파급력과 큰 기술의 흐름을 꿰뚫고 다스를 수 있는 사람들은 결국 소수 엘리트일 것입니다.

소수 엘리트가 아닌 나머지 사람들은 어떻게 되는 걸까요?

AI 기술은 인류가 말에서 자동차로 넘어왔을 때나 증기기관, 공장이 발명되었을 때와 일자리 생산 측면에서 다르다고 생각합니다.

말에서 자동차로 넘어왔을 때 자동차를 생산할 공장과 그 공장을 운영할 사람이 필요했지만, 오늘의 4차 산업혁명은 자동차처럼 없던 물건을 새로 만들기보다 비물질적인 서비스 영역의 확대가 특징인데요.

서비스 영역은 결국 육체적 노동이 아닌 지식산업의 발달을 의미하고, 이를 AI가 대신할 수 있다면 사람은 어디 갈 곳이 없어지게 됩니다.

인간은 뛰어난 적응력을 자랑하는 동물이기 때문에 AI가 지배한 세상에서도 잘 적응해 살 수 있겠죠.

하지만 아마 높은 확률로 삶의 의미를 일이 아닌 다른 곳에서 찾게 되지 않을까 싶고, 대부분 사람은 생산보다 소비에 시간을 더 쏟게 되지 않을까 싶습니다.

결국 소비하기 쉬운 엔터테인먼트나 놀이 영역이 커지지 않을까 하는 생각이 듭니다. 예쁜 카페나 쾌적한 술집 가서 친구들이랑 이야기 나누거나, 골프 치고 테니스 등의 운동을 하거나, 이성 만나거나 하는 활동들이 지금보다 더 활성화되지 않을까요?

머리를 쓰는 학문, 연구, 창조의 영역도 물론 존재하겠지만, 놀이의 영역보다는 아무래도 비중이 작지 않을까 싶네요.

그래도 놀이나 창조를 누리기 위해선 삶을 지탱할 돈이 있어야 할텐데, 그 돈은 어디서 나올까요?

AI를 활용해 돈을 벌고 있는 기업을 대상으로 누진세(progressive tax)를 부과해 걷은 세금으로 특정 연봉 수준을 넘지 못하는 사람들에게 기본소득(universial basic income)을 제공하는 방법이 있겠습니다.

ChatGPT가 소개한 Elizabeth Thompson 박사의 AI기업 누진세 정책

그런데 높은 세금을 AI를 활용한 기업에 국한할 필요가 있을까요?

OpenAI의 설립자인 Sam Altman은 역사적으로 봤을 때 소수의 엘리트 집단이 자본을 장악했을 때보다 더욱 포용적인 시스템을 갖춘 국가가 더 오래 잘 유지되었다고 주장하면서 미국 전체 GDP의 일부를 국민에게 기본소득으로 돌려줘야 한다는 주장도 낸적이 있습니다 (국가 GDP의 최대 10~20%까지).

이처럼 AI가 지배한 미래에는 ‘일’의 정의가 지금과 많이 달라질 것이고, 어쩌면 먹고 사는 문제보다 삶의 ‘의미’를 찾는게 더 어려운 숙제가 될 수 있겠네요.

글을 마치며

오늘은 생성형 AI 기술 중 OpenAI의 자연어 생성 모델인 GPT 시리즈의 탄생과 기술적 차별점, GPT를 활용해 불과 1~2년 사이 몇백억 단위의 매출을 내고 있는 대단한 스타트업 사례와 생성형 AI가 지배한 미래에 생길 새로운 직업들과 우려점에 대해서 글을 다뤄봤습니다.

이번 글은 다른 글과 달리 요즘 트렌디한 기술을 깊게 파보고, 비즈니스적 가능성을 검토하는 방식으로 풀었는데요. 혹시 재미있으셨을까요? :)

다음 글에서 더 좋은 내용을 찾아뵙도록 하겠습니다!