똑똑한 LLM이 단순 반복 업무를 망치는 이유 (feat. AI 에이전트 일관성 문제 해결기)

안녕하세요, 웹 브라우저 내의 반복적인 업무를 자동화하는 에이전트를 만들고 있는 제오노스 팀입니다.

최근 훌륭한 AI 에이전트들이 쏟아져 나오고 있습니다. 저희 팀 역시 "사람이 하기 따분한 단순 클릭과 텍스트 입력 업무를 AI가 대신해 주면 어떨까?"라는 생각에서 프로덕트를 개발하고 있는데요. 이 과정에서 마주했던 꽤 치명적인 문제 하나와, 이를 해결하기 위해 최근 업데이트한 내용을 EO플래닛 메이커 분들과 공유해 보려 합니다.

🤔 문제: 알아서 잘 딱 깔끔하고 센스있게? (Chat2Task의 한계)

모두 아시다시피 LLM은 본질적으로 확률 기반의 모델입니다. 초기 저희 서비스는 'Chat2Task' 방식이었습니다. 사용자가 한 번에 모든 내용을 설명하면("A 사이트 로그인해서 B 데이터 다운받고 C에 입력해줘"), 에이전트가 그 의도를 파악해 매번 스스로 액션을 계획하고 알아서 실행하는 구조였습니다.

언뜻 보면 굉장히 스마트해 보이지만, '자동화(Automation)' 영역에서는 이 방식이 오히려 독이 되었습니다. 프롬프트가 같아도 LLM의 그날 컨디션(?)에 따라 액션 계획이 미묘하게 달라졌기 때문입니다. 열 번 중 아홉 번을 성공해도 한 번 엉뚱한 버튼을 클릭한다면, 그건 매번 사람이 감시해야 하는 '신뢰할 수 없는 자동화 툴'이 되어버립니다.

💡 인사이트: 실행 단계에서는 AI를 배제하자

이 문제를 해결하기 위해 저희는 “스케줄링된 워크플로우가 실행되는 단계에서는 최대한 AI의 개입을 덜어내자”는 결론을 내렸습니다.

매번 AI가 새롭게 탐색하고 계획하게 두는 것이 아니라, 처음 시나리오를 세팅할 때만 AI의 뛰어난 언어 이해 능력을 활용해 '고정된 형태의 규칙'을 만들고, 실제 구동 시에는 그 규칙대로만 100% 동일하게 움직이도록 구조를 바꾼 것입니다.

🛠️ 해결책: 개별 액션을 정확하게 통제하는 'Chat2Node'

이러한 고민을 바탕으로 이번 업데이트에서 Chat2Node라는 새로운 세팅 방식을 도입했습니다.

한 번에 뭉뚱그려 지시를 내리던 기존(Chat2Task)과 달리, Chat2Node는 사용자가 채팅하듯 개별 액션을 하나씩 지시하는 방식입니다.

사용자: "검색창에 'EO플래닛'이라고 쳐줘"

AI: (의도를 분석해 '텍스트 입력'이라는 고정된 Node를 생성 및 배치)

사용자: "이제 검색 버튼을 클릭해"

AI: (분석 후 '클릭' Node를 생성 및 배치)

이렇게 개별 액션을 반복해서 지시하면, 사용자는 훨씬 더 정확하게 매 액션을 통제하고 설정할 수 있습니다. 결과적으로 초기 세팅은 채팅으로 쉽게 하되, 실행은 변하지 않는 단위 작업으로 고정시켜 기존 RPA 수준의 강력한 일관성을 확보할 수 있게 되었습니다.

AI를 활용해 프로덕트를 기획하시거나, 지나치게 자율적인 AI 에이전트의 불안정성 때문에 고민하셨던 분들께 'Chat2Task vs Chat2Node'라는 저희의 삽질기와 접근 방식이 작은 인사이트가 되었으면 좋겠습니다.

이해를 돕기 위해 Chat2Node 방식이 실제로 어떻게 시나리오를 짜고 실행되는지 최근 튜토리얼 영상으로 만들어 두었습니다. 구현 방식이 궁금하신 분들은 가볍게 참고해 주세요!

xeona: https://xeona.xyz

제오노스 Xeonos Inc. · CEO

AI 기반 워크플로우 자동화 빌더 Xeona

팔로우 🙌 커피챗

댓글이 없습니다.