#트렌드
AI 벤치마크의 역설: '지능'을 측정한다는 것의 함정

소위, 점점 더 ‘똑똑한’ AI를 개발하려는 경쟁은 점점 치열해지고 있죠. 지난 2월 27일 오픈AI는 기다리던 최신 모델, ‘GPT-4.5’를 발표했구요, 바로 이틀 전, 앤쓰로픽은 최초의 하이브리드 추론 모델 ‘Claude 3.7 Sonnet’을 발표했습니다.

GPT-4.5는 특히 ‘감성 지능’을 향상시키면서 글쓰기, 프로그래밍 등 영역에서 쓸모가 높아진 걸로 보이고, 대화의 흐름이 이전보다 한층 자연스러워졌습니다. ‘환각’ 현상도 GPT-4o 대비 크게 감소했다고 하구요.

Claude 3.7 Sonnet은 ‘시스템 1 사고’ - 즉각적으로 응답을 생성하는 것, 그리고 ‘시스템 2 사고’ - 깊은 추론 과정을 하나의 모델에 통합한 것이 특징으로, 코딩 분야에 강점이 있을 뿐 아니라 Extended Thinking Mode를 활성화하면 다른 최신 모델과 비슷한 수준의 벤치마크 점수가 나온다고 합니다.

 

뭐, 어떤 모델이 나왔다는 말씀을 드리려는 건 아닙니다. 오히려, ‘더 똑똑한 AI’를 개발하려는 경쟁이 낳고 있는 ‘역설 (Paradox)’에 대한 이야기를 하려고 합니다 - 바로, ‘발전의 정도’를 측정하는데 사용하는 ‘벤치마크’에 대한 이야기입니다.

아티클을 더 읽고 싶다면?
이오플래닛에 가입해주세요.
로그인 후 모든 아티클을 무료로 볼 수 있어요.
로그인/회원가입
링크 복사

댓글 0
댓글이 없습니다.
추천 아티클
0