사람 대신 답하는 AI, 스타트업의 첫 번째 고객이 될 수 있을까

"이 프로덕트를 정말 고객이 사용할까?"

이 질문은 스타트업이 반드시 마주하게 되는 아주 중요한 물음입니다. 제품을 막상 출시했을 때, 아무도 사용을 원하지 않는다면 난감하기 때문입니다. 그래서 수차례의 고객 설문과 인터뷰를 통해 실제 이용자의 반응을 예측하고자 하죠.

하지만 초기 스타트업에게는 언제나 시간과 비용, 인력의 한계도 따라붙습니다. 그렇다면, AI가 고객 설문은 대신할 수는 없을까요?

일반 LLM이 제로샷으로 제품을 평가한다면 얼마나 정확할지에 대한 최근 연구 결과와 더불어, 실제 산업에서 사용되고 있는 AI 테스팅 현황과 앞으로의 가능성까지 살펴보았습니다.

스타트업을 위한 미스터리 쇼퍼, AI 챗봇

최근에 발표된 한 연구는 지금 스타트업들이 직면한 문제의 실마리를 찾아줄 실험을 진행했습니다. 아무것도 추가로 학습시키지 않은 일반 LLM을 활용해 소비자 설문조사를 대신할 수 있는지 알아본 것인데요. 연구팀은 몇 번의 시행착오 끝에 AI로부터 현실에서도 유의미한 답변을 얻어내는 방법을 찾아냈습니다.

일반적인 고객 설문조사는 1점부터 5점까지의 점수 체계 안에서 선호도에 따라 점수를 매기는 방식으로 의견을 묻습니다. 하지만 이러한 방식으로 진행하면 극단을 피하고 중간으로 수치가 쏠리는 중간 편향이 발생합니다. 인간 설문자도 이러한 경향이 있지만, AI의 경우 그러한 경향성이 더욱 두드러지죠.

연구에서는 그 대신 AI에게 서술형으로 의견을 물어본 뒤, 그 답변을 미리 준비한 5개의 기준 문장과 의미상으로 얼마나 비슷한지 계산해서 점수로 변환해 봤습니다. 이를 '의미적 유사성 평가(SSR)'라고 부르는데요. 놀랍게도, 이 방법을 쓰자 AI 응답이 실제 사람들이 같은 설문을 두 번 할 때의 신뢰도 수준인 90%까지 도달했고, 응답 분포 패턴도 실제와 85% 이상 비슷하게 나왔습니다.

🎯AI에게 알려준 기준 문장들
- 1점: 절대 안 살 것 같다 (Definitely would not buy)
- 2점: 아마 안 살 것 같다 (Probably would not buy)
- 3점: 살 수도 있고, 안 살 수도 있다 (Might or might not buy)
- 4점: 아마도 살 것 같다 (Probably would buy)
- 5점: 반드시 사고 싶다 (Definitely would buy)

과거에는 매장의 운영 상황을 알아보기 위해 손님처럼 위장한 본사 직원이 ‘미스터리 쇼퍼’로 활동했다면, 이제는 스타트업을 위해 손님처럼 위장하여 행동하는 ‘미스터리 쇼퍼’가 등장한 셈입니다. 제로샷 AI 고객 시뮬레이션*이라는, 막대한 비용을 줄이면서도 실질적으로 도움이 되는 고객 조사의 가능성을 찾은 것이죠.

*제로샷 : 사전 학습된 일반 지식을 활용하여, 새로운 작업에 대해 별도의 예시 없이 바로 예측하거나 수행하는 기술

그렇다면 연구실 밖에서는 AI가 어떤 성과를 보여주고 있을까요?
현장 사례를 중심으로 조금 더 알아보겠습니다.

AI, 고객 테스트를 부탁해

AI는 인간이 충분한 시간과 비용을 들이면 해낼 수 있는 일을, 획기적으로 빠르게 수행해 준다는 점에서 아주 유용한 도구로 일상에 스며들었는데요. 산업 현장에서도 이 AI 효율화 트렌드를 도입하려는 시도가 이어지고 있습니다.

주로 제품 개발·개선 단계에서 AI를 통해 고객 경험을 예측해 보는 데 활용되고 있는데요. 아직은 제한적인 수준이지만, 사람을 통한 반복적인 테스트가 수차례 필요한 분야에서 그러한 활용성을 확장해 나가고 있습니다.

이어지는 AI 시뮬레이션의 이야기가 궁금하다면?
👉 Click! 하고 아티클 전문 보러 가기

카카오벤처스 카카오벤처스

창업가와 투자자를 위한 깊이 있는 인사이트

팔로우 🙌 커피챗

댓글이 없습니다.