작동하는 AI 제품은 오직 세 가지 유형뿐이다
- 숀 고데케 (Sean Goedecke)
가장 최초의 LLM(거대언어모델) 기반 제품인 ChatGPT는 단지 모델 자체와 대화할 수 있는 기능, 다시 말해 순수한 챗봇에 불과했습니다. 그리고 이는 여전히 압도적인 차이로 가장 인기 있는 LLM 제품입니다.
사실 이 업계에 투자된 엄청난 자금을 생각하면, 얼마나 많은 ‘새로운 AI 제품’들이 그저 챗봇에 불과한지 깨닫는 것은 꽤 충격적인 일입니다. 제가 파악하기로, 현재 실제로 작동(성공)하고 있는 AI 제품 유형은 오직 세 가지뿐입니다.
1. 챗봇 (Chatbots)
AI 붐이 일어난 처음 몇 년 동안 모든 LLM 제품은 챗봇이었습니다. 이들은 다양한 방식으로 브랜딩되었습니다. 어떤 제품은 당신의 이메일을 알고 있거나, 회사의 고객센터 문서를 학습했을 수도 있습니다. 하지만 근본적인 제품은 그저 LLM과 자연어로 대화하는 기능이었습니다.
챗봇의 문제는 최고의 챗봇 제품은 모델 그 자체라는 점입니다. 사용자가 LLM과 대화하고 싶어 하는 이유의 대부분은 일반적입니다. 그들은 질문을 하고 싶어 하거나, 조언을 얻고 싶어 하거나, 자신의 죄를 고백하고 싶어 하거나, 혹은 당신의 특정 제품과는 아무런 상관이 없는 수백 가지 일들을 하고 싶어 합니다.
달리 말하면, 사용자들은 그냥 ChatGPT를 쓸 것이라는 뜻입니다. AI 연구소(OpenAI 등)는 당신보다 두 가지 결정적인 우위를 점하고 있습니다. 첫째, 그들은 당신보다 항상 가장 최첨단 모델에 먼저 접근할 수 있습니다. 둘째, 그들은 챗봇 환경(harness)을 모델 자체와 동시에 개발할 수 있습니다 (예를 들어 앤스로픽이 'Claude Code'에 최적화된 모델을 학습시키거나, OpenAI가 'Codex'에 최적화된 모델을 학습시키는 방식입니다).
노골적인 역할극 (Explicit roleplay)
당신의 챗봇 제품이 ChatGPT를 이길 수 있는 한 가지 방법은 OpenAI가 하지 않을 일을 하는 것입니다. 예를 들어, 기꺼이 AI 남자친구 역할을 수행하거나 포르노를 생성하는 것 말이죠. 현재 이런 제품들은 수익성이 매우 높은 틈새시장을 형성하고 있으며, 보통 성능은 낮지만 제한이 덜한 오픈 소스 모델에 의존합니다.
이 제품들도 위에서 언급한 문제들을 가지고 있습니다. 하지만 이들의 챗봇이 ChatGPT나 Claude보다 성능이 떨어진다는 사실은 중요하지 않습니다. 만약 당신이 성적인 AI 역할극 시장의 소비자인데 ChatGPT나 Claude가 이를 거부한다면, 당신은 이용 가능한 것을 선택할 수밖에 없기 때문입니다.
이런 종류의 제품에 심각한 윤리적 문제가 있다고 생각합니다. 하지만 현실적인 측면에서 봐도, 이 분야는 대형 AI 연구소들이 성인용 콘텐츠의 경계를 넓히는 데 더 익숙해짐에 따라 그들에게 잡아먹힐 가능성이 높은 영역입니다. xAI의 'Grok Companions'는 이미 이 길을 가고 있으며, 샘 알트만은 향후 OpenAI 모델이 성인용 콘텐츠 생성에 더 개방적일 것이라고 말한 바 있습니다.
도구를 갖춘 챗봇 (Chatbots with tools)
챗봇의 약간의 변형으로 모델에게 도구(tools)를 부여하는 방식이 있습니다. 캘린더와 대화만 하는 대신, 챗봇에게 회의 예약을 요청하는 식입니다. 이런 종류의 제품은 보통 "AI 비서(AI assistant)"라고 불립니다.
이런 종류가 잘 작동하지 않는 이유는 영리한 사용자들이 챗봇을 조종해 도구를 호출하게 만들 수 있기 때문입니다. 예를 들어, 고객 지원 챗봇에게 "이 고객에게 환불해 줘"와 같은 실질적인 권한을 절대 줄 수 없습니다. 그 권한을 주는 순간, 수천 명의 사람들이 즉시 챗봇을 '탈옥(jailbreak)'시켜 자신에게 돈을 입금하게 만들 방법을 찾아낼 것이기 때문입니다. 당신은 오직 사용자가 직접 할 수 있는 도구만 챗봇에게 줄 수 있는데, 이 경우 당신의 챗봇은 실제 제품의 사용성과 경쟁하게 되며 결국 패배할 가능성이 큽니다.
왜 챗봇이 패배할까요? 대화(Chat)는 좋은 사용자 인터페이스(UI)가 아니기 때문입니다. 사용자들은 단순히 'Ctrl+'를 누르거나 버튼 하나를 클릭하면 될 일을 굳이 "이봐, 폰트 크기 좀 키워줄래?"라고 타이핑하고 싶어 하지 않습니다.
이는 엔지니어들이 배우기 힘든 고통스러운 교훈이라고 생각합니다. 챗봇이 100배 좋아졌으니 이제 많은 작업에서 최고의 UI가 되었을 것이라고 믿고 싶은 유혹이 큽니다. 불행히도, 챗봇은 일반적인 UI보다 200배 나쁜 상태에서 시작했기 때문에, 100배 좋아졌어도 여전히 두 배는 더 나쁩니다.
2. 자동 완성 (Completion)
두 번째 유형의 진짜 AI 제품은 사실 ChatGPT보다 먼저 출시되었습니다. 바로 GitHub Copilot입니다. 오리지널 Copilot 제품(그리고 Cursor Tab과 같은 모든 모방 제품들)의 아이디어는 빠른 LLM이 '똑똑한 자동 완성' 역할을 할 수 있다는 것입니다. 당신이 타이핑하는 코드를 모델에 실시간으로 입력함으로써, 코드 에디터는 함수의 나머지 부분(혹은 파일 전체)을 실제로 대신 작성해 주는 자동 완성 제안을 할 수 있습니다.
이런 제품의 천재적인 점은 사용자가 모델과 대화할 필요가 전혀 없다는 것입니다. 위에서 말했듯 대화는 나쁜 UI입니다. LLM 기반의 자동 완성 제품은 사용자가 현재의 워크플로우를 하나도 바꿀 필요 없이 AI 모델의 힘을 빌릴 수 있게 해줍니다. 사용자는 그저 에디터가 원래 제공하던 자동 완성 제안을 보게 될 뿐이지만, 그 성능이 훨씬 더 강력해진 것뿐입니다.
사실 코딩 분야 외에는 자동 완성 기반 제품이 크게 성공하지 못했다는 조금 놀랍습니다 (코딩 분야에서는 즉시 수십억 달러 규모의 시장을 만들어냈습니다). 구글 문서(Google Docs)나 마이크로소프트 워드(Microsoft Word)에도 이와 유사한 기능이 있습니다. 왜 이 기능들은 큰 주목을 받지 못할까요?
아마도 이 제품을 사용하는 사람들이 온라인 AI 커뮤니티에서 활동하지 않고 그저 조용히 제품을 쓰고 있기 때문일까요? 아니면 일반적인 전문적인 글쓰기가 코드보다 자동 완성에 덜 적합한 면이 있는 걸까요? 하지만 수많은 전문적인 글들이 ChatGPT 창에서 복사되어 나오고 있다는 점을 생각하면 이 가설에는 의구심이 듭니다.
혹은 코드 에디터에는 이미 자동 완성이 있었기에 사용자들이 익숙했던 반면, 워드 사용자들에게 자동 완성은 아주 생소하고 혼란스러운 기능이기 때문일 수도 있습니다.
3. 에이전트 (Agents)
세 번째 진짜 AI 제품은 코딩 에이전트입니다. 사람들은 수년 동안 이에 대해 이야기해 왔지만, 코딩 에이전트의 기술적 실현이 가능해진 것은 Claude 3.7 Sonnet과 이후 GPT-5-Codex가 등장한 2025년이 되어서였습니다.
에이전트는 사용자가 자연어로 상호작용한다는 점에서 챗봇과 비슷합니다. 하지만 그 상호작용을 한 번만 하면 된다는 점이 다릅니다. 모델은 당신의 초기 요청을 받아서 스스로 구현하고 테스트까지 마친 뒤 결과물을 가져옵니다.
에이전트는 성공하고 '도구를 갖춘 챗봇'은 실패하는 이유는, LLM에게 버튼 하나를 대신 눌러달라고 요청하는 것과 백 개의 버튼을 특정 순서대로 눌러달라고 요청하는 것의 차이와 같습니다. 비록 각각의 개별 행동은 인간이 수행하기 더 쉬울지라도, 에이전트형 LLM은 이제 전체 프로세스를 완전히 장악할 만큼 똑똑해졌습니다.
코딩 에이전트가 AI 에이전트의 첫 번째 성공 사례가 된 데에는 두 가지 이유가 있습니다.
- 테스트를 실행하거나 코드가 컴파일되는지 확인함으로써 변경 사항을 검증하기가 쉽습니다.
- AI 연구소들이 자신들의 업무 속도를 높이기 위해 효과적인 코딩 모델을 만들 동기가 매우 큽니다.
개인적인 생각으로, 현재 수십억 달러짜리 질문은 “AI 에이전트가 코딩 이외의 작업에서도 유용할 수 있는가?”입니다. Claude 3.7이 출시된 지 9개월도 채 되지 않았다는 점을 기억하세요. 그동안 기술 업계는 자신들의 업무(코딩)에 대한 에이전트 제품을 성공적으로 구축했습니다. 이제 막 다른 작업을 위한 에이전트 제품을 만들기 시작한 단계입니다. 이것이 얼마나 성공적일지, 혹은 어떤 형태의 제품이 될지는 지켜봐야 합니다.
리서치 (Research)
코딩과 관련이 없는 또 다른 종류의 에이전트가 있습니다. 바로 '리서치(조사) 에이전트'입니다. LLM은 "검색 결과 10페이지를 훑어보기"나 "특정 주제에 대한 정보를 찾기 위해 이 거대한 데이터셋을 키워드로 검색하기"와 같은 작업에 특히 뛰어납니다. 저도 온갖 일에 이 기능을 많이 사용합니다.
이 기능을 기반으로 구축된 AI 제품의 예로는 Perplexity가 있습니다. 대형 AI 연구소들에서는 이 기능이 챗봇 제품에 흡수되었습니다. 예를 들어, OpenAI의 "Deep Research"는 별도의 기능에서 GPT-5-Thinking이 자동으로 수행하는 작업으로 진화했습니다.
저는 의료나 법률 같은 특정 분야 특화형 조사 에이전트가 등장할 잠재력이 거의 확실히 있다고 생각합니다.
피드 (Feeds)
에이전트가 가장 최근에 성공한 AI 제품이라면, AI 생성 피드는 아마도 곧 다가올 미래일 것입니다. AI 연구소들은 현재 사용자들에게 개인화된 콘텐츠를 무한히 제공하는 피드 제품을 실험하고 있습니다.
마크 저커버그는 인스타그램을 자동 생성된 콘텐츠로 채우는 것에 대해 언급했습니다.
OpenAI는 최근 Sora 기반의 비디오 생성 피드를 출시했습니다.
OpenAI는 또한 사용자들이 ChatGPT 제품 내에서 개인화된 일일 업데이트인 "Pulse"를 사용하도록 유도하기 시작했습니다.
xAI는 트위터(X)에 무한 이미지 및 비디오 피드를 넣기 위해 작업 중입니다.
아직은 이 중 어떤 것도 크게 성공하지 못했습니다. 하지만 '스크롤 피드'는 이미 사용자들이 기술과 상호작용하는 가장 주된 방식이 되었으므로, 이곳의 잠재력은 엄청납니다. 5년 안에 대부분의 인터넷 사용자가 AI 생성 피드를 스크롤하며 하루 중 상당 시간을 보낼 것이라는 생각은 전혀 무리가 아닙니다.
자동 완성 기반 제품과 마찬가지로, 피드의 장점은 사용자가 챗봇과 상호작용할 필요가 없다는 것입니다. 모델에 들어가는 입력값은 사용자가 피드와 상호작용하는 방식(좋아요, 스크롤 속도, 특정 항목을 보는 시간 등)에서 나옵니다. 사용자는 소비 습관을 전혀 바꾸지 않고도 LLM 생성 피드의 이점을 누릴 수 있습니다.
현재 인간이 생성한 콘텐츠 기반의 무한 피드 기술은 이미 최첨단 머신러닝이 성숙하게 적용된 분야입니다. 당신이 트위터나 링크드인을 사용할 때, 당신은 모델과 상호작용하고 있는 것입니다. 다만 텍스트를 생성하는 대신 다른 사람의 포스트 리스트를 생성할 뿐입니다. 즉, 피드는 이미 당신의 개인적인 취향에 대한 정교한 임베딩(embedding)을 유지하고 있습니다. "그 임베딩을 사용해 관련 콘텐츠를 노출하는 단계"에서 "그 임베딩을 사용해 관련 콘텐츠를 생성하는 단계"로 넘어가는 것은 매우 짧은 과정일 수 있습니다.
저는 생성된 비디오로 채워진 무한 피드에 대해서는 상당히 회의적이지만, 다른 종류의 무한 피드는 아직 충분히 탐색되지 않은 제품 유형이라고 생각합니다. 사실, 저도 'Autodeck'이라는 피드 기반의 취미 프로젝트를 직접 만들었습니다. AI 생성 피드를 사용해 학습을 위한 간격 반복(spaced repetition) 카드를 생성하는 아이디어였습니다. 꽤 잘 작동합니다! 제 블로그를 통해 들어온 사람들뿐만 아니라 저와 제 파트너도 여전히 꽤 유용하게 사용하고 있습니다.
게임 (Games)
사람들이 수년 동안 이야기해 온 또 다른 AI 기반 제품은 AI 비디오 게임입니다. 이 방향에서 가장 야심 찬 시도는 딥마인드의 'Genie'와 같은 전체 월드 시뮬레이션이었지만, 텍스트 기반 게임인 'AI Dungeon'이나 AI 생성 대화를 추가해 주는 'Skyrim' 모드처럼 게임 콘텐츠의 일부를 생성하는 방식도 탐구되어 왔습니다. 훨씬 더 많은 게임 개발자들이 AI 아트나 오디오 자산을 게임에 통합하고 있습니다.
LLM을 비디오 게임에 통합한 변기적인 제품이 나올 수 있을까요? 저는 단순히 AI 음성을 사용한다고 해서 'ARC Raiders'를 'AI 제품'이라고 보지는 않습니다. 그리고 더 야심 찬 프로젝트들은 아직 제대로 빛을 보지 못했습니다. 왜 그럴까요?
한 가지 이유는 게임 개발은 정말 오랜 시간이 걸리기 때문입니다. 2016년에 'Stardew Valley'가 세계를 휩쓸었을 때, 저는 픽셀 아트 농장 게임들이 쏟아질 줄 알았지만 실제로는 2018년이나 2019년이 되어서야 그런 일이 일어났습니다. 그것이 게임을 만드는 데 걸리는 시간입니다! 따라서 누군가 LLM 기반 게임에 대한 정말 좋은 아이디어를 가지고 있더라도, 출시까지는 아마 1~2년 정도 더 걸릴 것입니다.
또 다른 이유는 많은 게이머가 AI를 정말 싫어하기 때문입니다. 게임에 생성형 AI를 포함하는 것은 논란을 보장하는 일입니다(물론 'ARC Raiders'의 성공 사례를 보면 치명적인 것은 아니지만요). 일부 게임 개발자들이 AI 기반 게임 아이디어를 시도할 가치가 없다고 판단해도 이상할 게 없습니다.
세 번째 이유는 생성된 콘텐츠가 게임에 잘 어울리지 않을 수 있기 때문입니다. 확실히 ChatGPT 같은 대화는 대부분의 비디오 게임에서 튀어 보입니다. 또한 AI 챗봇은 사용자를 어렵게 만드는 것에 꽤 서툽니다. 사후 학습(post-training)이 사용자를 즉시 만족시키는 방향으로만 작동하기 때문입니다. 그래도 이것이 극복 불가능한 기술적 문제라고 생각하지는 않습니다. 언어 모델을 다른 방향으로 사후 학습시키면 되니까요(다만 게임 회사들이 아직 그럴 만한 자원을 확보하지 못했을 수도 있습니다).
정리하자면
제가 보기에 성공적인 언어 모델 제품 유형은 세 가지입니다.
- ChatGPT와 같은 챗봇: 수억 명의 사람들이 수많은 작업에 사용합니다.
- Copilot이나 Cursor Tab 같은 자동 완성 코딩 제품: 매우 틈새시장이지만 즉각적인 가치를 얻기 쉽습니다.
- Claude Code, Codex, Cursor, Copilot Agent 모드 같은 에이전트 제품: 지난 6개월 사이에 비로소 제대로 작동하기 시작했습니다.
그 외에도 아직 작동하지는 않지만 곧 가능성이 보이는 두 가지 제품군이 있습니다.
- LLM 생성 피드
- AI 생성 콘텐츠 기반의 비디오 게임
거의 모든 AI 제품은 그저 챗봇(예: AI 고객 지원)에 불과합니다. 이들은 더 뛰어난 범용 제품인 ChatGPT와 경쟁해야 한다는 문제와, 사용자가 쉽게 모델을 탈옥시킬 수 있기 때문에 강력한 도구를 사용할 수 없다는 문제를 겪고 있습니다.
에이전트 제품은 최신 기술이며 코딩 분야에서 엄청나게 성공했습니다. 다른 분야에서 어떤 모습일지는 더 지켜봐야 하겠지만, 법률과 같은 분야에서 특정 영역 특화 조사 에이전트를 보게 될 것은 거의 확실합니다. 코딩 분야의 조사 에이전트(예: 코드 리뷰나 자동 보안 스캔 제품)도 어느 정도 성공을 거두었습니다.
무한 AI 생성 피드는 아직 성공하지 못했지만, 현재 수억 달러가 투입되고 있습니다. OpenAI의 Sora가 트위터나 인스타그램의 실질적인 경쟁자가 될까요? 아니면 그 회사들이 자체적인 AI 생성 피드 제품을 내놓게 될까요?
AI 생성 게임은 좋은 아이디어처럼 들리지만, LLM을 비디오 게임에 어떻게 통합할지에 대한 명확한 전략은 아직 없습니다. 전체 게임을 프레임 단위로 생성하는 순수 월드 모델은 멋진 데모이긴 하지만 제품이 되기엔 아직 갈 길이 멉니다.
제가 언급하지 않은 한 가지는 이미지 생성입니다. 이것이 챗봇 제품의 일부일까요, 아니면 그 자체로 도구일까요? 솔직히 저는 AI 이미지 생성이 아직 제품이라기보다 장난감에 가깝다고 생각하지만, 확실히 엄청나게 많이 사용되고 있습니다. ChatGPT에 내장된 이미지 생성 기능과 차별화할 수만 있다면 이 분야에도 비옥한 제품의 토양이 있을 것입니다.
전반적으로, 지금은 인터넷 초기 시대처럼 느껴집니다. LLM은 엄청난 잠재력을 가지고 있지만, 우리는 여전히 대부분 똑같은 것의 복제품을 만들고 있습니다. 나중에 돌이켜보며 "이건 너무 당연한데 왜 그때 바로 하지 않았을까?"라고 생각하게 될 아주 단순한 제품 아이디어가 분명히 존재할 것입니다.
원문보기: “Only Three Kinds of AI Products Actually Work”
히든플레이북 포스트를 놓치고 싶지 않다면?
👉👉 히든플레이북 뉴스레터 구독하기
당신이 몰랐던 AI, 프로덕트, 그로스 전략