생성형AI어디까지 믿어야 할까?

지금은 생성형 AI 춘추전국시대

출처 : ChatGPT Statistics 2024All the latest statistics about OpenAI’s chatbot

2023년 11월, Chatgpt가 세상에 나오고 약 한달만에 약 3억명의 방문자가 Chatgpt의 웹사이트를 방문했다. 그리고 그 수는 올해 5월 18억명까지 증가했다. 한 달이라는 짧은 시간 안에 이렇게 많은 사용자를 모은 서비스가 있었던가?

생성형 AI의 관심은 빠른 속도로 우리 삶에 녹아들었다. 일상에서 “Chatgpt한테 물어봐” 라고 말하는 것이 전혀 어색하지 않다. Chatgpt 뿐만 아니라 Claude 3.5, Perplexity, Gemini 까지 출시되며 더 많은 사용자를 유치하기 위해 경쟁하고있다. 지금은 그야말로 생성형 AI들의 춘추전국시대다.

AI어디까지 믿어야해?

우리가 사용하는 AI, 얼마나 정확할까?

많은 분야에서 생성형 AI로 업무 효율성이 향상 됐다는 글들이 넘쳐난다. 함께 등장하는 키워드로 자동화 또한 빼놓을 순 없다. 하지만 Chatgpt가 내놓는 답변들, 어디까지 믿을 수 있을까?

닐슨노먼 그룹이 지난 8월 발행한 기사, When Should We Trust AI? Magic-8-Ball Thinking은 생성형 AI를 현명하게 사용하는 방법에 대해 다룬다. 하지만 아직 갈 길이 멀다. 스탠퍼드 대학의 Varun Magesh 와 그의 연구진에 따르면, 법률과 관련된 AI도구들은 잘못된 정보를 줄 확률이 최대 33%, 세일즈포스 생성형AI 보드에 따르면, 채팅과 관련해서 잘못된 정보를 줄 확률이 최대 19%라고 한다.

이렇게 생성형 AI가 부정확한 정보를 줌으로서 발생하는 실수들을 “hallucinations” - 환각 이라고 부른다.

예를 들면 피자 만들 때 독성없는 접착제를 사용해서 치즈가 흘러내리지 않도록 하라 라고 한다던가, 여자를 그려달라고 했는데 남자이미지를 만들어 준다던가 하는 것들이다.

왜 이런 오류들이 발생할까?

이런 오류 (환각 증상)에 대해서 이해하려면 생성형 AI가 작동하는데 기본적으로 필요한 기술, LLM 이 작동하는 원리를 알아야 한다.

LLM은 확률모델을 기반으로한 예측엔진이다. 기존에 봤던 데이터들을 바탕으로 그 다음에 무엇이 올지 예측하여 내놓는 것이다. LLM이 인터넷의 모든 곳에서 수집된 학습 데이터를 기반으로 훈련 되기 때문에 인간이 작성한 다양한 문장예시를 통해 음절 간의 연관성을 학습한다. 그러나 이 모델은 단어의 의미 뿐만 아니라 진실, 세상에 대한 이해를 하지 못한다. 그래서 매끄러운 단어의 모음을 생성할 지는 몰라도 정확성에 대해서는 검증이 안되는 것이다.

Benj Edwards는 이런 환각을 ‘지어내기’라고 명명하기도 한다. 필자는 그 표현이 더 어울리는 것 같다고 느낀다.

이런 ‘지어내기’ 오류들은 단기간내에 해결될 것 처럼 보이지 않는다. 그래서 사용자는 생성형 AI에서 제공하는 정보를 곧이곧대로 믿어버리면 지어내기로 만들어낸 정보를 진짜 정보라고 믿고 잘못된 결정을 내릴 가능성이 있다. ‘맞아보이는’ 응답을 그대로 믿어 버리는 것이다.

아무런 의심없이 AI가 생성한 정보를 믿어버리는 것을 “ 매직 8 볼 씽킹”이라고 한다.

이미지 출처 : 위키피디아

매직 8볼(Magic 8-Ball)은 질문에 대한 답을 무작위로 제공하는 장난감이다. 검은색의 8자 모양을 한 공 안에 액체가 들어 있으며, 공 안에 있는 20면 주사위가 다양한 답변을 가지고 있다. 사용자가 공을 흔들고 질문을 하면 주사위가 하나의 답을 보여준다.

주사위에는 “Yes,” “No,” “Ask again later”와 같은 답변이 적혀 있어, 답변이 운에 따라 무작위로 결정되며 이는 재미로 질문에 답을 얻고자 할 때 사용된다.

한 마디로 운에 맡겨버린다는 것.

“매직 8 볼 씽킹”이 뭐죠?

최근 메타에서 근무했던 UX리서처이자 Altis 의 창업자 Savina Hawkins가 “매직 8볼 씽킹”이라는 용어를 만들었다. 앞서 언급했듯이 “매직 8볼 씽킹”은 AI가 생성한 인사이트와 답변을 아무런 의심없이 사실로 받아들이는 것이다.

생성형 AI를 이용할 때 “매직 8볼 씽킹”이 일어나는 경우는 아래와 같다.

AI가 처리할 수 없는 범위의 업무를 요청하는 경우
AI를 사용할 때 사용자가 본인의 지식이나 능력을 적극적으로 활용하지 않는 경우
현실적인 수준보다 AI에게 더 높은 능력치를 가정하는 경우
AI의 답변이 좋다고 판단되면 비판적 사고 없이 그것에 만족하는 경우

“매직 8볼 씽킹” 어떻게 피할 수 있을까?

생성형 AI에 지나치게 의존하는 것은 위험하다. Caleb Sponheim는 사용자가 사실이라고 확인할 수 있는 정보만 사용하라고 권한다. 내 전문지식 내에서만 AI를 활용하라는 것이다. 지나치게 AI에 의존하거나 AI답변들에 대해 검토할 수 없으면 “매직 8볼 씽킹”에 빠질 수 있다.

그러나 AI를 이용할 때마다 그 결과에 대해 검토할 순 없을 것이다. 예를 들어 마케팅, UX 카피, 문서 초안 등 내용의 사실 유무가 상대적으로 중요하지 않은 콘텐츠에는 적극적으로 활용이 가능하다.

하나만 기억하면 된다. ”중요한 업무에 절대로 AI로 생성된 결과를 검토없이 바로 퍼블리시하거나 공유하지 마라. “

디자이너도 AI기능을 설계할 때 “매직 8볼 씽킹”을 고려해야할까?

결론부터 말하면 그렇다. AI를 이용하는 사용자들이 잘못된 답변을 그대로 믿어버렸다가 생기는 문제는 곧장 사용자의 이탈로 이어지기 떄문이다.

그래서 여러 AI들은 사용자에게 제공된 답변의 출처를 표기하는 기능을 만들어 놓았다.

Perplexity는 출처를 표기하는 기능이 있으며 Gemini는 더블체크버튼을 삽입하여 사용자가 소스의 정확도를 측정하는데 도움을 줬다. Devetail은 사용자들이 AI의 결과를 쉽게 확인할 수 있도록 요약문에 각 녹화의 시간표시된 섹션으로의 링크를 제공하기도 한다.

마치며

필자는 주변에서 생성형 AI를 남들보다 한참 늦게 사용하기 시작했다. 왜냐하면 생성형AI를 사용하기 시작하면 혼자 사고하는 시간이 줄어들 것 같았기 때문이다. AI에 의존하는 것이 마음에 들지 않았다. 최근 AI를 사용하면서 앞서 언급한 ‘지어내기’ 오류를 여러 번 경험했기 때문에, 이제는 AI를 상황에 맞게 선별적으로 사용하고 있다. 그러나 AI의 활용도와 정확성은 앞으로 더욱 정교해질 것이며, 이를 얼마나 현명하게 사용하는지는 결국 사용자에게 달려 있다고 본다.

유저스푼 디비디랩 · 에디터

누구나 쉽게 UX리서치를 할 수 있는 문화를 만듭니다.

팔로우 🙌 커피챗

댓글이 없습니다.