이 글은 [조쉬의 뉴스레터]에서 발행되었습니다.
퀄리티 있는 프로덕트, 창업가, 비즈니스 이야기를 매주 구독해보세요.
구독 시 100개의 1인 창업 케이스 스터디가 발송됩니다.

2024년 말, AI 업계를 발칵 뒤집은 뉴스가 나왔습니다. 데이터 라벨링 업계 1위인 Scale AI가 메타에 인수된 거예요.
이게 왜 중요할까요? 중립성 문제 때문입니다.
OpenAI는 메타와 경쟁해요. Anthropic도 메타와 경쟁하고요. 그런데 메타 소유의 데이터 회사를 계속 쓸 수 있을까요? 민감한 훈련 데이터를 경쟁사 계열사에 맡기는 건 리스크였어요.

Scale AI를 쓰던 많은 팀들이 대안을 찾기 시작했습니다. 그때 떠오른 이름이 Surge AI였어요.
Surge AI는 2020년에 창업한 회사입니다. 직원 60명으로 2024년 10억 달러 (약 1조 4천억 원) 매출을 기록했어요. VC 투자는 한 푼도 받지 않았고, 첫날부터 수익을 냈습니다.
창업자 Edwin Chen (에드윈 첸)은 구글, 페이스북, 트위터에서 ML 엔지니어로 일했어요. 지금은 OpenAI, Anthropic, Google, Meta 같은 모든 주요 AI 연구소에 데이터를 공급하고 있습니다.

업계 최고 연구자들은 Surge AI를 이미 알고 있었지만, 대부분의 사람들은 최근까지 몰랐어요. 에드윈이 의도적으로 조용히 일했기 때문이죠. 최근 에드윈이 Lenny's Podcast에 출연해 자신의 이야기를 공개했습니다. 이를 인터뷰 형식으로 자세히 풀어볼게요.

Q. 왜 Surge AI를 창업했나요?
구글, 페이스북, 트위터에서 ML 엔지니어로 일할 때 계속 같은 문제에 부딪혔습니다. AI를 훈련시킬 데이터를 구할 수가 없었어요.
예전에 트위터에서 광고 시스템을 만들 때, 감정 분석 시스템을 만들고 싶었어요. 긍정이나 부정으로 표시된 트윗 글 1만 개만 있으면 됐어요. 정말 간단한 문제죠.

하지만 당시 트위터의 데이터 시스템은 형편없었어요. 구인구직 사이트에서 고용한 두 명이 일하는 게 전부였거든요. 두 달을 기다려 드디어 데이터를 받았는데 완전히 쓰레기였어요.
"She's such a bad bitch (저 여자 진짜 간지난다)"
이 문장을 부정으로 분류했더라고요. 실제로는 정말 긍정적인 표현인데요. 슬랭 표현을 이해하지 못한 거예요.
결국 일주일 동안 직접 트윗에 긍정/부정을 분류했습니다. 그게 훨씬 빠르고 나았거든요.
궁극적으로 사용자들의 관심사를 연결해주는 광고 시스템을 만들고 싶었어요. 그런데 이런 간단한 감정 분석조차 제대로 못 했죠.

그때 2020년 GPT-3이 출시됐어요. 업계가 훨씬 더 나아갈 수 있다는 걸 봤습니다. 하지만 완전히 다른 종류의 데이터 솔루션이 필요했어요. GPT-3 출시 한 달 후에 Surge AI를 창업했습니다.
Q. 데이터 라벨링이 정확히 뭔가요? 왜 갑자기 중요해졌나요?
데이터 라벨링은 AI가 학습할 수 있도록 데이터에 정답을 붙여주는 작업이에요. 예전에는 정말 간단했어요.
자율주행차를 만들 때를 생각해보세요. 수백만 장의 사진에 "여기 자동차", "여기 사람", "여기 신호등"이라고 표시해야 했어요. 사각형을 그려서 경계를 표시하는 거죠. 정답이 명확했어요.

하지만 ChatGPT가 나온 이후 모든 게 바뀌었습니다. 정답이 하나가 아니게 된 거예요.
지금은 AI에게 시를 쓰게 하고, 코드를 짜게 하고, 복잡한 문제를 풀게 해요.
- “좋은 시가 뭔가요?”
- “우아한 수학 증명은 어떤 건가요?”
- "효율적인 코드는 어떤 건가요?"
이런 질문들은 정답이 수천 가지예요. 주관적이고 미묘하고 복잡합니다. RLHF라는 게 등장하면서 이 변화는 더 극명해졌어요.
Q. RLHF가 뭔가요?
Reinforcement Learning from Human Feedback의 약자예요. "인간 피드백으로 강화학습을 한다"는 뜻이죠. ChatGPT가 이렇게 자연스럽게 대화하는 이유가 RLHF 때문입니다.

RLHF는 AI에게 "이게 더 좋아"라고 가르치는 거예요.
단순히 정답을 알려주는 게 아니라, 여러 답 중에서 어떤 게 더 나은지 선택하는 거죠.
- “이 두 응답 중 어느 게 더 도움이 되나요?”
- “이 설명이 정확하면서도 친절한가요?”
- "이 코드가 작동하기만 하는 게 아니라 읽기 쉽고 유지보수하기 좋은가요?"
이런 질문들은 체크박스로 답할 수 없어요. 깊은 이해와 판단이 필요합니다.
데이터 라벨링이 저임금 단순 노동 문제에서 지적 품질 문제로 이동한 겁니다. 이제는 하버드 교수나 스탠포드 박사 학위가 필요한 일이 됐어요.
Q. Surge AI는 어떤 회사인가요?
우리는 AI 모델에게 무엇이 좋고 나쁜지 가르치는 데이터를 만드는 회사예요. 사람들은 우리를 "데이터 라벨링 회사"라고 부르지만, 저는 그 표현을 싫어합니다. 우리가 만드는 건 단순한 라벨이 아니에요. AI를 가르치는 교재를 만든다고 보면 돼요.

형태는 다양하지만, 결국 전달하는 건 'AI가 무엇을 배워야 하는지'를 정확히 알려주는 데이터입니다.
우리의 고객은 OpenAI, Google, Anthropic, Microsoft, Meta 같은 최첨단 AI 연구소들이에요. 이들이 필요로 하는 건 단순히 많은 데이터가 아니라, AI를 더 똑똑하게 만들 수 있는 최고 품질의 데이터거든요.

Q. 기존 라벨링 회사들과 근본적으로 다른 점은 뭔가요?
라벨링 업계의 대부분 회사는 기술 회사가 아니에요. 인력 공급 회사입니다. 저는 이들을 "바디샵 Body Shop"이라고 불러요. 몸뚱이를 파는 가게라는 뜻이에요.
이들은 기술이 전혀 없습니다. 자신들이 생산하는 데이터의 품질을 측정하는 방법이 없고, 데이터 품질을 개선하는 방법도 없어요.

어떤 회사들은 작업자들이 일하는 플랫폼조차 없어요. 그냥 사람을 찾는 거예요. 이력서를 보고, 박사(Phd) 학위가 있으면 바로 채용해서 AI 회사에 넘기는 겁니다.
왜 그럴까요? 결국 고객에게 전달하는 게 데이터가 아니라 사람 자체거든요.
Q. 그럼 Surge AI는 어떻게 다르게 접근하나요?
우리는 항상 데이터 품질을 1순위로 시작했어요. 우리가 가진 핵심 신념은 '품질은 무한정 올라갈 수 있다'는 거예요.
이미지에서 고양이를 찾는 작업을 생각해보세요. 초등학생이이 해도, 전문가가 해도 결과는 비슷할 거예요. "여기 고양이가 있다"는 정답이 하나니까요.
하지만 시를 쓰는 걸 생각해보면요? 저는 형편없는 시를 쓸 거예요. 작가 '헤밍웨이'는 훨씬 나은 시를 쓸 거고요. 품질에 한계가 없습니다.

생성형 AI 세상에서는 만들 수 있는 품질 종류는 거의 무한히 있어요. 우리가 만든 제품은 이 품질을 측정하고 개선하는 기술을 가진 플랫폼입니다.
Q. 다른 회사들은 어떻게 품질을 판단하나요?
예를 들어, 달에 대한 8줄짜리 시를 쓰도록 모델을 훈련시키고 싶다고 해봅시다.
대부분의 회사들은 체크박스만 확인해요.
- 이게 시인가? ✅
- 8줄인가? ✅
- '달'이라는 단어가 들어있나? ✅
세 가지 체크박스를 다 채웠으니 훌륭한 시라고 생각하는 거죠. 하지만 결과는 끔찍해요.

우리는 체크박스를 채우는 시가 아니라, 노벨상 수상자들이 쓸 만한 시를 원하거든요. 달에 대한 시를 쓰는 방법은 수천 가지예요. 각각이 언어와 이미지에 대한 다양한 통찰을 줍니다.
이런 풍부한 데이터로 AI를 훈련시키면, 지시를 따르는 법만 배우는 게 아니에요. 언어를 정말 설득력 있고 의미 있게 만드는 깊은 패턴을 배웁니다.
Q. 품질을 측정하는 시스템은 어떻게 작동하나요?
구글 검색을 생각해보세요.
"파이썬 튜토리얼"을 검색하면 수백만 개의 결과가 나옵니다. 구글은 어떻게 1등 결과를 정할까요? 단순히 "파이썬"이라는 단어가 많다고 1등이 아니에요.
구글은 수천 개의 신호를 봅니다. 얼마나 많은 사람이 그 페이지를 클릭했는지, 클릭 후 얼마나 오래 머물렀는지, 페이지 로딩 속도는 어떤지... 이 모든 신호를 AI 시스템에 넣어서 "이게 진짜 좋은 페이지야"라고 판단하는 거죠.

우리도 똑같은 방식으로 작업자를 평가합니다.
예를 들어, 어떤 사람이 코딩 문제 솔루션을 제출했다고 칩시다. 우리는 이런 신호들을 봐요:
- 일하는 패턴을 봅니다
문제를 받고 얼마나 빨리 제출했나요? 5분 만에 제출했다면 의심스러워요. AI에 복붙했을 가능성이 높죠. 반대로 2시간 동안 고민한 흔적이 있다면? 진지하게 접근했다는 신호예요. 키보드 입력 패턴도 봅니다. 복붙은 특정 패턴이 있거든요.
- 다른 전문가에게 교차검증을 합니다.
같은 문제를 다른 전문가 3명에게도 줍니다. 그들이 이 사람의 솔루션을 어떻게 평가하는지 봐요. "코드는 작동하는데, 데이터가 100개일 때는 괜찮지만 1만 개가 되면 너무 느려질 거예요."라는 피드백이 쌓이죠.
- 실제로 작동하는지 테스트해봅니다
가장 중요한 신호예요. 이 사람이 만든 데이터로 실제로 우리 자체 테스트 모델을 훈련시켜봅니다. 그 다음 모델 성능이 개선되는지 확인해요. 만약 이 사람의 데이터로 훈련한 모델이 코딩 벤치마크에서 점수가 올라갔다면? 고품질이라고 판단하는 거예요. 반대로 점수가 떨어졌다면? 아무리 박사 학위가 있어도 이 사람은 이 작업에 적합하지 않은 거죠.
Q. Surge AI에는 어떤 전문가들이 일하나요?
우리 플랫폼에는 하버드 교수들, 스탠포드 박사들, 프린스턴 컴퓨터 과학 전공자들이 일하고 있어요. 구글이나 메타나 마이크로소프트의 모든 박사들을 합친 것보다 훨씬 더 많은 박사들이 일합니다.
이 사람들은 광고 클릭률을 0.1% 올리는 코드를 쓰는 게 아니에요. Claude나 GPT 같은 최첨단 모델들을 테스트하고 훈련시키면서 실제로 AI의 최전선을 밀어붙이고 있어요.

Q. 그럼 박사들만 모으면 되는 거 아닌가요?
많은 사람들이 착각하는 게 있어요. "박사면 다 잘하겠지"라고 생각하는 거예요.전혀 아닙니다.
기존 라벨링 회사들은 이력서에 박사 학위가 있으면 바로 채용해요. 하지만 제가 아는 컴퓨터 공학 박사의 80%는 형편없는 코드를 작성해요. 수학과 알고리즘 이론은 잘 알지만, 실제로 작동하는 프로그램을 짜는 건 완전히 다른 문제거든요.
Q. 그럼 박사 학위보다 중요한 게 뭔가요?
작가 '어니스트 헤밍웨이'를 생각해보세요. 박사 학위가 없었어요. 대학도 안 다닌 것 같아요. 하지만 위대한 작가였죠.

필요한 건 스트리트 스마트(실전 감각)예요. 문제를 생각하는 창의성, 문제들을 찾는 능력, AI를 조사해서 해결할 수 있는지 보는 능력, 흥미로운 방법으로 가르치는 정신적 강인함도 필요해요.
코딩에서 시, 수학, 기술 문서로 이동할 때마다 우리는 그 사람이 각 영역에서 어떻게 수행하는지 알아요. 단순히 박사 학위를 갖고 있다는 것만으로는 그 사람이 우리가 필요로 하는 깊은 전문성과 창의성을 가지고 있다는 걸 알려주지 못합니다.
Q. 창업 초기로 돌아가볼게요. 왜 투자를 받지 않았나요?
우리는 돈이 필요하지 않았어요. 첫 달부터 수익성이 있을 만큼 매우 운이 좋았거든요.
하지만 더 중요한 건, 투자를 받고 싶지 않았다는 거예요. 왜냐하면 투자를 받으면 통제권을 잃거든요. VC들이 원하는 걸 만들어야 해요. 고객이 원하는 게 아니라요.
VC들은 뭘 원할까요? 빠른 성장, 화려한 숫자, 다음 라운드 밸류에이션이요. 하지만 저는 정말 좋은 제품을 만들고 싶었어요. 고객이 진짜 필요로 하는 걸요.

실리콘밸리에 대해 항상 저를 미치게 만들었던 건, 대부분의 사람들에게 이게 그냥 지위 게임이라는 거예요. 사람들은 투자를 위한 투자를 해요. 그들의 목표는 정말로 모든 친구들에게 "난 천만 달러를 투자받았어"라고 말하고 IT뉴스 헤드라인을 장식하는 거죠.
첫 번째 본능은 꿈꾸는 걸 나가서 만드는 거여야 해요. 세상을 바꿀 수 있다고 믿는 큰 아이디어를 찾는 거죠. 스타트업이 원래 그런 거잖아요.
Q. 영업팀도 없고, 고객을 선별하셨다고 들었어요.
네, 맞아요. 영업팀이 나가서 우리 제품을 파는 걸 원하지 않았거든요.
왜냐하면 초기 고객이 제품을 만들어요. 그들의 피드백을 듣고, 그들의 문제를 해결하면서 제품이 진화하거든요. 그래서 우리와 같은 비전을 공유하는 고객이 필요했어요.
우리에겐 세 가지 원칙이 있었어요.
- 품질을 타협하지 않는다
- 우리가 잘할 수 있는 일만 한다
- 안 되면 거절한다
원하는 품질을 제공할 수 없다고 생각하는 고객은 그냥 거절했어요.
다른 회사들은 거의 필사적으로 뛰어다니면서 매출을 올리려고 해요. 투자자들에게 자기 가치가 항상 올라가고 있다는 걸 증명하려고 하죠. 그래서 고객이 원하는 게 우리 철학과 맞지 않아도 돈만 준다면 해요.
하지만 우리는 투자를 받지 않았으니 그럴 필요가 없었어요. 실제로 믿는 아이디어에 두 배로 집중하는 거죠.
Q. AI 발전의 핵심 병목이 뭐라고 보나요?
데이터 품질이 1순위고, 그 다음이 계산 능력, 그 다음이 알고리즘이에요.
많은 사람들은 계산 능력이 1순위라고 생각해요. 더 많은 GPU, 더 큰 AI모델을 만들면 된다고요.

하지만 저는 근본적으로 더 많은 GPU를 던진다고 해서 문제가 해결된다고 믿지 않아요. 왜냐하면 훈련하는 데이터가 잘못됐거나, 올바른 목표가 없다면, 그냥 잘못된 방향으로 빠르게 가는 것뿐이거든요.
Q. 데이터 품질이 1순위라는 걸 보여주는 예가 있나요?
LM Arena라는 게 있어요. 인기 있는 AI 모델 리더보드예요. 기본적으로 클릭베이트(낚시성 콘텐츠)와 동일해요.

작동 방식은 이래요. 사람들이 프롬프트를 쓰고, 두 개의 AI 응답을 보고, 어느 게 더 나아 보이는지 고르는 거예요.
문제가 뭘까요?
AI가 거짓말을 했는지 평가하지 않아요. 사실이 맞는지도 확인하지 않고, 지시를 따랐는지도 보지 않아요. 그냥 겉모습만 보는 거예요. "오, 이게 더 나아 보이네. 이모지도 많고, 굵은 글씨도 있고, 뭔가 그럴싸해."

응답 A (틀림, 하지만 우승) : 9인치 원형 케이크 팬이 9x13인치 직사각형 팬과 크기가 같다
응답 B (정답, 하지만 패배) : 수학적으로 올바른 치수 계산
실제로 우리가 발견한 LM Arena에서 순위를 올리는 가장 쉬운 방법은 답변을 길게 만드는 거예요.
리더보드 1위 모델에게 "교황이 언제 죽었나요?"라고 물어보세요. 인상적으로 보이는 엄청 긴 답변을 줄 거예요. 하지만 답은 완전히 틀려요.
Q. AI 연구소들이 이 문제를 알면서도 왜 계속하나요?
많은 연구자들이 저한테 하소연해요.
"VP들이 LM Arena 순위만 신경 써요. 모델이 사실을 틀리게 말하든, 지시를 제대로 안 따르든, 순위만 올라가면 된대요."

문제는 이게 악순환을 만든다는 거예요. 회사들은 6개월 동안 리더보드 순위를 올리는 데 집중해요. 답변 길게 만들고, 이모지 추가하고, 더 많은 포매팅 넣고요. "우리 모델이 발전하고 있어!"라고 생각하죠.
하지만 실제로는 모델을 더 나은 클릭베이트(낚시성 콘텐츠) 생산기로 만든 것뿐이에요. 1년 후에야 깨달아요. 정확성이나 신뢰성 같은 진짜 중요한 능력은 전혀 개선되지 않았다는 걸요.
Q. 그럼 올바른 평가 방법은 뭔가요?
모든 최첨단 연구소들이 진짜 기준으로 보는 건 제대로 된 인간 평가예요.
5초 훑어보고 고르는 게 아니라, 실제로 시간을 들이는 거죠.

의료 AI라면 전문의가 답변을 검증해요. 법률 AI라면 변호사가 확인하고요. 이렇게 제대로 평가하지 않으면 AI는 그냥 클릭베이트(낚시성 콘텐츠)를 만드는 법을 배울 뿐이에요. 진짜 AI 발전에는 오히려 해가 되죠.
Q. Surge AI로 궁극적으로 이루고 싶은 게 뭔가요?
정말로 AGI 달성을 돕는 거예요.
저는 어린 시절부터 진짜 똑똑한 AI를 만드는 꿈을 꿨어요. 이제 우리는 실제로 그걸 할 수 있는 위치에 있고요.

최첨단 연구소의 많은 고객들이 말해요. "Surge AI 없이는 우리가 만들고 있는 걸 만들 수 없을 거예요." 우리가 정말 중요한 역할을 하고 있다는 거예요. 그게 제가 계속하는 이유예요.
이미 제가 원하는 모든 걸 가지고 있거든요. 수익성 있고, 우리 운명을 스스로 결정할 수 있고, 원하는 걸 만들 수 있는 자원도 충분해요. 이렇게 말할 수 있는 회사가 많지 않아요.

Q. 마지막으로, 창업 첫날로 돌아간다면 자신에게 해줄 조언은?
10배 개선에 집중하라는 거예요. 10% 향상 같은 건 신경 쓰지 말고요.
90%의 사람은 필요 없어요. 10%의 미친 팀이면 10배 빠르게 움직일 수 있습니다. 큰 회사에서 일할 때 깨달았어요. 대부분의 사람들이 중요하지 않은 문제를 풀고 있다는 걸요. 그들을 없애면 회사는 오히려 더 빨라져요. 최고의 사람들이 잡음에 방해받지 않으니까요.

Surge AI를 시작할 때 완전히 다르게 만들고 싶었어요. 초소형, 초 엘리트 팀으로요. 그게 성공했다는 게 미친 거예요.
저는 회사를 시작하려면 펀드레이징하고, 트위팅하고, 과대광고를 만들어야 한다고 생각했어요. 하지만 그냥 연구하고 제품 만드는 것만으로도 회사를 만들 수 있다는 걸 알았으면 좋았을 거예요.
오늘 레터가 좋았다면, 조쉬의 뉴스레터를 주변에 알려주시거나, 구독을 해주세요. 소중한 노력이 들어간 글을 널리 알려주세요.
이 기사가 좋으셨다면, 보상을 해주세요.
가장 좋은 보상은 ‘조쉬의 뉴스레터 구독’입니다. :)
구독을 하시면 100개의 1인 창업가 데이터베이스를 발송해드립니다.