왜 대부분의 기업 AI는 기대만큼 성과를 못 내는가

많은 기업은 AI를 하나의 “구축 프로젝트”로 접근합니다. 모델을 붙이고 워크플로우를 연결하면 곧 안정적으로 돌아갈 것이라 기대합니다. 그러나 AI를 실제 업무에 투입하는 순간, 예외와 오류는 필연적으로 발생합니다. 결론부터 살피면 실패하지 않는 AI는 처음부터 완벽하게 구축되는 것이 아니라, 실패를 관리하면서 점진적으로 만들어지는 시스템입니다.

현장에서 국내 기업을 만나보면, 크게 두 부류로 나뉘는 것 같습니다. 먼저, AI를 어디에 어떻게 써야 할지 전혀 감이 없는 기업과 이미 여러 AI 툴을 붙여 나름의 워크플로우를 만든 기업입니다.

독특한 건 대부분 후자 또한 초기 데모에서 만족하더라도 운영 환경에서 사용해보면 불안과 답답함을 종종 느끼는 겁니다. 아마, 실제로 데모에서는 분명히 잘 작동했는데 어느 순간 에이전트가 멈춰있거나, 생각보다 잘못된 판단을 많이 하기 때문일 겁니다. 그래서, “10번 중에 2-3번은 꼭 실패하더라. 이상한 판단을 하더라” 라는 피드백도 듣습니다. 그럴때마다 저는 “물론 AI가 빠르게 변하지만 우리의 워크플로우는 변하지 않습니다. 모델은 변화에 맞게 바꾸면 되기 때문에 우선 어떤 실패와 위험이 있는지 계속 살펴야 합니다”라고 열심히 설득하고 있습니다. 그래서 오늘은 AI의 실패와 위험을 어떤 마인드로 관리해야 하는지를 간단하게 나눠보고 싶습니다.

우선, AI는 원래 실패가 당연한 것

먼저 전제부터 분명히 해야 합니다. AI는 본질적으로 확률 시스템이며, 일종의 ‘시스템 엔지니어링’ 기법이 24~25년도에 많이 발달했지만 그럼에도 복잡하고 전문적인 업무로 갈수록 실패 가능성은 자연스럽게 증가합니다.

많은 조직이 이 지점을 과소평가합니다. 모델 성능이 충분히 올라가면 안정적으로 동작할 것이라 기대하지만, 실제 운영 환경에서는 그렇게 만만하지는 않습니다. ColdFusion(https://www.youtube.com/watch?v=z3kaLM8Oj4o)의 분석에서도 지적되듯, 최신 LLM은 특정 작업에서는 인간 수준의 성능을 보이지만, 긴 실제 업무 워크플로우를 사람처럼 끝까지 안정적으로 수행하는 데에는 여전히 구조적 한계가 큽니다. 여기서는 실패율이 대략 96%라고 합니다. 논문을 살피면 물론 범용 AI인만큼 태스크도 과도한 상태가 아닙니다.

일례도 실제 단순히 문서만 참조해서 답변하는 환경만 보더라도, “적절한 문서를 정확히 찾아오는 것” 자체가 생각보다 쉽지 않습니다. 문서 구조, 청킹 전략, 최신성, retrieval 노이즈 등 다양한 변수가 개입합니다. 여기에 추론과 생성이 결합되면 작은 오차가 결과 품질을 크게 흔듭니다. 광고를 ‘여러 매체에 알아서 이미지를 생성하고 비용도 집행하는’ 에이전트 사례는 재시도, 판단 실패, 결제 불안과 같은 더 큰 어려움에 놓기게 됩니다.

이렇듯 여전히 AI 에이전트가 특정 업무를 잘 수행하는데에는 단순하든 복잡하든 늘 실패가 과정이라는 사실을 받아들이고, 사람이 이것을 계속 개선해줄 필요가 있습니다. 특정 영역에서만은 훌륭한 성과를 보이고 있지만, ‘우리 기업’, ‘우리 워크플로우 특화’는 어쩌면 단순해보여도 사람의 손이 안가게 하는 일까지 도달하는 데에는 많은 시간과 노력이 필요합니다. 쉽게 말하면, 반드시 이 과정을 거쳐야만 더욱 환각과 노이즈를 줄여낼 수 있다고 관점을 바꿔볼 필요가 있다는 주장입니다.

버티컬 또는 특정 워크플로우에 특화된 에이전트 시장의 성장

AI가 특정 워크플로우를 수행하는 게 쉽지 않은 만큼, 최근 시장의 관심이 버티컬 또는 워크플로우 특화 에이전트로 가게 됩니다. YC와 a16z를 포함한 주요 VC 흐름도 이 방향을 분명히 보여줍니다.

실제 기업 환경에서 가치는 “무엇이든 조금 잘하는 AI”가 아니라, 특정 업무 흐름 하나를 끝까지 안정적으로 수행하는 시스템에서 나오고 있습니다. 예를 들어 광고 영역을 보면, 이미지 생성이나 카피 작성 같은 단일 태스크는 이미 상당 부분 자동화가 가능합니다. 그러나 실제 광고 운영은 전략 수립 → 소재 생성 → 매체 업로드 → 예산 집행 → 성과 모니터링 → 크리에이티브 교체로 이어지는 긴 실행 체인입니다.

그래서, 이런 복잡하고 특정한 업무 흐름을 제대로 종결하기 위해 버티컬 에이전트 기업들이 계속 나타고 있지만, 생각보다 압도적인 자동화를 하기에는 여러 부분에서 실패하는 경험도 많습니다. “이거 될 것 같은데?” 라고 시도하고 개발했다가 “생각보다 너무 안되더라”라면서 접은 엔지니어 및 제품도 많이 보았습니다. 물론, 어떤 사이드에서는 상당히 높은 성과와 경험을 만들어내는 데, 아마 이 경우에는 이전에 이런 플로우에 대한 충분한 데이터셋이 있었거나 모델이 특히 잘하는 소수의 영역을 잘 만들었기 때문이라고 생각합니다.

이렇게만 말하면, 너무 비관적인 시선 같지만 저는 기본적으로 AI 를 아주 좋아하고 또 멋진 기술이라고 생각합니다. 다만, 이 친구를 ‘기업 환경’에서 잘 쓰기 위해서는 본질적으로 더 많은 노력이 필요하다고 주장하고 있고 마인드를 바꾸면 더 큰 가치를 만날 수 있다고 생각합니다.

AI 실패를 보는 관점을 필연적으로 전환

계속 말하는 흐름이 비슷하지만 결국 우리가 바꾸어야 하는 것은 AI 실패를 예외적인 사건이 아니라, 관리해야 할 정상적인 운영 변수로 받아들인다는 마인드입니다.

많은 조직은 여전히 “구축만 하면”, 또는 “구축 후에 적당히 오류만 잡으면 충분히 자동화가 가능하다”는 기대를 가지고 있습니다. 그러나 운영에서 실행이 다양해질수록 또는 많아질수록 당연히 통계적 법칙에 의해 문제의 케이스는 계속 등장합니다. 특히 광고 집행, 발주, 결제처럼 결정적 신뢰성이 필요한 영역에서는 작은 오류도 실제 비용 손실로 이어집니다.

또 모델은 지속적으로 똑똑해지고 있지만, 생각보다 이 ‘추론의 똑똑함’ 만으로는 확률적으로 발생하는 환각과 노이즈를 줄이는 건 상당히 어려운 일입니다.(나중에 더 자세히 설명해보고 싶습니다) 즉, 단순히 모델이 얼마나 똑똑한가로는 부족합니다. 우리는 이제 더 넓은 마인드를 갖춰야 하는데 “실패를 얼마나 빨리 감지하는가?, 불확실성을 얼마나 구조적으로 관리하는가?, 워크플로우를 얼마나 투명하게 관측하는가?” 등을 제대로 살펴보아야 하는 것입니다. 즉, AI 운영의 본질은 정답률 경쟁이 아니라 리스크 관리 역량이라고 생각합니다.

글로벌 시장의 변화

이 흐름은 글로벌 시장에서도 이런 관점에 대한 철학이 분명하게 나타나고 있습니다. Langfuse, LangChain, Arize, Galileo 등 주요 플레이어들이 공통적으로 집중하는 영역은 모델 자체가 아니라 관측(observability), 평가(evaluation), 품질 관리(quality control) 레이어입니다.

이는 기업들이 실제 운영 단계에서 겪는 병목이 모델 성능 그 자체보다, 운영 신뢰성과 실패 관리에 있다는 경험적 학습의 결과라고 볼 수 있습니다. 이러한 기술적인 난제와 시장의 흐름을 볼 때 앞으로 기업 AI의 경쟁력은 누가 더 큰 모델을 쓰느냐보다, AI의 실패와 위험을 얼마나 체계적으로 측정하고 통제할 수 있는가에서 갈릴 가능성이 높다고 생각합니다.

“우리는 확률적으로 동작하는 AI를 어떻게 운영 가능한 수준으로 신뢰할 수 있을까요?” 이 질문이 바로 저희 팀이 가장 집중하고 있는 지점입니다. 저희는 이 문제를 단순한 모델 성능 개선의 문제가 아니라, 워크플로우와 응답 데이터를 기반으로 한 리스크 관리 시스템의 문제로 보고 있습니다. 현재 Risk-based Sampling을 포함한 관측·평가·통제 방법론을 중심으로, 실제 운영 환경에서 AI의 신뢰성을 체계적으로 끌어올리는 기술을 연구·개발하고 있습니다. 물론, 다양한 기법과 연구를 통해 시스템 설계 수준에서 결정론적으로 안정성을 높이는 접근도 매우 중요하다고 생각합니다. 다만 저희는 (1) 워크플로우 트레이스 기반 실패 탐지, (2) 리스크 중심 평가 전략, (3) 운영 환경에서의 불확실성 정량화, (4) 에이전트 신뢰성 측정 프레임워크 등에 관심이 많습니다.

이 문제에 공감하시는 분들. 특히 Research Scientist, Applied Scientist, 그리고 에이전트 신뢰성 문제에 관심 있는 엔지니어 분들과 적극적으로 이야기 나누고 싶습니다. 기존의 리스크나 신뢰성 문제로 어려움을 겪거나 불안한 기업도 언제든 환영입니다. 가볍게 연구 아이디어를 교환하는 커피챗도 언제든 환영합니다. (https://docs.google.com/forms/d/e/1FAIpQLSfFIue6NLJimdAn32F8B6qswUBwIRjzxzmaXMLxIYmXbqXP7Q/viewform?usp=dialog)

kris yu 컨시언스 테크놀로지 · CEO

팔로우 🙌 커피챗

댓글이 없습니다.