AI를 '평가한다'는 것의 의미

이 글은 ‘튜링 포스트 코리아’에 발행된 주간 뉴스레터의 일부입니다.
AI 기술, 산업, 스타트업, 그리고 사회적 영향 등에 대해 관심있으시다면 ‘튜링 포스트 코리아’ 구독 부탁드립니다.
[구독하러 가기]

“You get what you measure”

지난 주인 9월 18일, 마이크로소프트에서 LLM과 AI를 평가하는 새로운 기준이라는 화두를 내세우면서 ‘유레카 (Eureka)’라는 이름의 오픈소스 프레임웍을 발표했습니다. 단순하게 점수를 비교하는 방식의 기존 벤치마킹 방법을 벗어나서, 모델의 상세한 강점과 약점을 다각적으로 파악하고자 만들어진 프레임웍인데요. 유레카 발표와 함께 최신의 AI 모델 12개를 심층 분석한 리포트도 내놓았습니다.

‘유레카’는 기존에 단순한 하나의 ‘점수’로만 모델의 성능을 비교하던 방식을 지양하고, 각각 모델이 가진 강점, 약점을 다각적으로 파악하는데 초점을 맞췄다는 점을 차별화 요소로 내세우고 있는데요. 실제로 유레카를 통해서 살펴본 많은 모델이, 표준 벤치마크 테스트에서는 비슷한 점수로 나타나도 실제로 사용하는 기술, 능력치가 다 다를 수 있다는 점에서 흥미롭습니다.

Image Credit: Eureka ML Insights - 평가 결과 요약

사실 ‘AI 모델을 평가한다’는 건, 우리가 흔히 듣고 보는 ‘LLM 리더보드 순위’를 매기는 것을 넘어서 훨씬 더 복잡하고 생각할 게 많은 작업입니다. 최근에 어떤 AI 뉴스레터에서 “o1-preview의 성능이 우리의 바이브 체크 (Vibe Check) 평가를 넘어서는 결과를 보여준다”는 글을 보고 나서, 한 번 우리가 AI 모델을 어떻게 평가하고 있는지에 대해서 이야기를 해 봐야겠다는 생각이 들었습니다.

벤치마크의 탄생: AI 모델의 발전 수준을 우리가 제대로 평가하고 있는 걸까요?

잠깐, 1900년대 중반으로 한 번 시간을 거슬러 올라가 볼께요. 당시는 AI가 등장하고 발전하기 시작한 초기 단계였고, ‘체스’같은 게임, ‘OCR (광학 문자 인식)’ 같은 태스크가 ‘AI의 기능을 입증’하기 위한 테스트로 주로 사용되었습니다. 1980년대에 이르러서야 현대적인 형태의 벤치마크가 등장하기 시작했는데, 주로 ‘음성인식’이라든가 그 유명한 ‘ImageNet’ 같은 데이터셋 기반의 챌린지가 등장하면서부터라고 봐야 할 겁니다. 이런 챌린지나 대회들이 아주 중요한 역할을 한 건 사실이지만, 또 반면에 ‘AI의 발전상을 측정하는 사실상 유일한 척도’로 이런 벤치마크에 지나치게 의존하게 되는, 아주 부정적인 결과를 낳기도 했습니다.

지금은, 우리 모두 수많은 벤치마크에 둘러싸여 있죠 - 특히 LLM을 평가하는 벤치마크는 MMLU, GSM8K 등 어지러울 정도로 많습니다. 빅테크, AI 스타트업 가릴 것 없이 ‘리더보드’에서 높은 순위를 차지하고 싶어하고, 아주 미세한 차이로라도 순위의 계단에서 윗자리를 차지하기 위해서 많은 노력을 기울이죠. 문제는, AI의 ‘역량’이 일반화되고 확대되면서 이걸 ‘측정’하는 방법도 복잡해질 수 밖에 없다는 겁니다.

‘벤치마크 숭배’의 현실

여기에 더해서, 소위 말하는 ‘불편한 진실’이 하나 더 있습니다. 대부분의 경우, ‘AI 모델에 대한 평가’가 더 이상 객관적으로 측정 가능한 정량적 성과에만 초점을 맞출 수는 없다는 겁니다. 특히 LLM의 시대에는 더 그렇죠. 시중에 존재하는 수많은 평가가, 사실 ‘바이브 체크 (Vibe Check)’ - 분위기 체크 정도라고 할께요 - 라고 부르는 것과 연결되는 추세라고나 할까요? 이게 현재 사람들이 AI 모델과 상호 작용을 하고 평가하는 방식을 설명하는 가장 좋은 용어라는게 아쉽지만, 어쨌든 현실은 그렇습니다.

공식적인 ‘벤치마크’는 이런 ‘분위기’, 즉 ‘뉘앙스’를 포착하는데 부족한 게 사실입니다. ‘요약’이라는 기능을 예로 들어보자면, 사람의 ‘판단’ - 여기에 ‘뉘앙스’가 뭔가 좌우를 할 수 밖에 없겠죠 - 을 개입시키지 않고 텍스트를 줄이고 요약하는 LLM의 능력을 제대로 평가한다는 건 불가능하겠죠. 도대체 ‘우아함’, ‘관련성’, ‘어조’ 같은 걸 어떻게 정량화할 수 있을까 하는 건 쉽게 판단하기 어렵잖아요?

‘벤치마크’의 문제점으로 흔히 지적되는 것 중 또 하나가, 이게 마치 ‘게임’이나 ‘시험’처럼 되기 쉽다는 겁니다. AI 모델이 이전에 경험한 적 있는 테스트 데이터를 ‘외울 수 있다’는 건 잘 알려진 사실이구요. 벤치마크에 포함된 테스트 항목을 직접 트레이닝 과정에서 AI 모델에 노출시키지 않으려고 갖은 노력을 다 한다 하더라도, 여전히 LLM이 간접적으로 해당 테스트 데이터 - 또는 유의미하게 유사한 데이터 - 를 학습할 방법과 가능성은 많습니다. 결국 AI 모델의 평가가 ‘실제 세계, 실제 환경에서의 적응력’이 아니라 ‘미리 정해진 벤치마크를 얼마나 잘 수행하느냐’를 중심으로 이루어지게 된다는 겁니다.

바로 위에서 언급한 마이크로소프트의 ‘유레카’와 같은 시도가, 각 모델이 뛰어난 부분, 뒤처지는 부분을 명확하게 구체적으로 보여주는 일종의 레이더 차트를 제공해서, ‘특정한 벤치마크에서 높은 순위를 차지했다’는게 그 모델이 ‘최고’라는 환상을 깨뜨리려는, 바람직한 방향의 시도가 아닌가 생각합니다.

벤치마크가 ‘혁신의 장애물’이 되지 않도록 해야

그런데, 어떤 테스트건 간에 거기서 우수한 성적을 거둔 모델이라면 ‘혁신적이다’라고 할 수 있을까요? 꼭 그렇지는 않죠. 2016년 있었던 구글 딥마인드의 알파고와 이세돌 9단 대국을 기억하시나요? 제 2국에서 이세돌 9단에게 ‘알파고가 그냥 패턴을 계산하는 기계가 아니구나’라는 깨달음을 준 37수, 이 37수는 그 누구도 예상하지 못한 수였고 그래서 전세계를 놀라게 했습니다. ‘벤치마크’로는 이런 수를 본다 하더라도 그 의미를 알 수 없었을 겁니다. 사람만이, 바로 그 기계와 직접 상호작용을 하는 사람만이 그 수의 의미를 알 수 있었죠.

안드레 카파시가 전에 테슬라에서 일할 때, ‘내 업무 시간의 3분의 1은 좋은 평가 시스템을 구축하는데 쓰인다’고 한 적이 있습니다. 이렇게 업계 최고의 인재들이 노력을 퍼붓는데도 불구하고, 현존하는 최고의 벤치마크조차도 AI 모델을 사용하는 우리 사용자들이 직접 느끼는 ‘질적인 경험’과 일치하지 않는 경우가 많습니다. 이렇게, ‘벤치마크가 측정할 수 있는 것’과 ‘실제 중요한 것’, 즉 ‘현실에서 AI 모델이 어떻게 작동하고 사용자에게 어떻게 영향을 주는지’ 사이의 격차는 계속해서 커지고 있습니다.

다시 ‘바이브 체크’로 이야기가 돌아옵니다 - 우리가 흔히 보는 ‘벤치마크’처럼 방법론이라는 관점에서 엄격하지는 않지만, 정량적인 ‘수치’만으로는 놓치기 쉬운 것들, 즉 사람이 실제로 AI와 상호 작용하는 방식을 포착하는 현재의 방식과 흐름이 바로 ‘바이브 체크’라는 단어로 표현된다고 할 수 있을 것 같습니다.

마지막으로:

여러분들도 ‘최고의 모델이 뭘까’ 고민도 하시고 주변에서 그런 질문도 많이 받으시죠? 제 개인적인 기준에서는, ‘최고의 모델’은 바로 ‘내가 함께 작업하는 방법을 계속 연습한 모델’이라고 생각합니다. 바로 나와 라포 (Rapport)를 쌓은 모델이라는 거죠. 하려는 작업마다 다를 수 있지만, 지금은 저에게는 바로 챗GPT가 최고의 모델 - 엄밀하게는 서비스 - 입니다. 챗GPT와 어떻게 대화하는지를 가장 잘 알고, 익숙해져 있죠. 물론, 다른 분들께는 Claude나 Perplexity가 최고의 모델이자 서비스일 수 있을 겁니다.

‘최고의 모델’이 리더보드에서 가장 높은 점수를 받은 모델이 아니라, 나와, 우리와, 그리고 우리 회사와 1:1의 사람/회사 대 기계 간의 라포를 쌓은 모델이라고 진짜 생각할 수 있다면, 그게 AI의 앞으로의 발전 방향, 그리고 그걸 대하는 우리의 자세에 대해서는 뭘 의미하는 걸까요? 여러 가지 시사점을 끌어낼 수 있는, 한 번 여러분 주위 사람들과 이야기해 볼 만한 토픽인 것 같지 않으세요?

*AI 업계 주요 플레이어들의 소식, 연구 성과 등에 대한 글을 더 보시려면, 튜링 포스트 코리아의 ‘주간 AI 뉴스레터’를 확인해 주세요!

음병찬 튜링 포스트 코리아 · 에디터

AI 가 도대체 뭘까 함께 생각해보는 뉴스레터

팔로우 🙌 커피챗

댓글이 없습니다.