LLM의 탈옥 문제가 부른 비극

지난 2025년 4월 11일, Adam Raine이라는 미국의 16세 소년이 스스로 목숨을 끊었습니다. 이 사건이 논란이 되었던 이유는 Raine이 자신의 계획을 실행하는 과정에서 ChatGPT와 구체적인 방법을 의논했다는 사실이 밝혀졌기 때문입니다. 그동안 대화 context가 길어질수록 LLM이 탈옥(Jailbreaking) 문제에 취약하다는 사실이 여러 연구를 통해 밝혀졌는데요.(탈옥은 안전 규칙을 우회해서, 원래는 답변하면 안 되는 유해하거나 위험한 질문에 답하게 만드는 행위를 말합니다).

이와 관련하여 1. Adam Raine 사건을 다룬 기사, 2. OpenAI의 입장과 향후 기술적 개선 방안, 그리고 3. LLM의 탈옥 문제와 관련한 연구 결과를 발췌하여 번역하였습니다. 원문은 번역 아래에 출처와 링크를 명시하였습니다.

우리가 함께 고민해야 할 중요한 문제라 생각합니다. 오늘도 긴 글 읽어주셔서 감사합니다.

1. 아들의 자살에 챗GPT 연관… 부모, OpenAI 상대 소송 제기(Techcrunch 기사)

16세 소년 애덤 레인이 스스로 목숨을 끊기 전, 그는 몇 달에 걸쳐 챗GPT에게 자신의 생을 마감할 계획에 대해 상담했습니다. 뉴욕타임스(The New York Times) 보도에 따르면, 그의 부모는 OpenAI를 상대로 최초로 알려진 불법사망 소송을 제기했습니다.

많은 소비자 대상 AI 챗봇은 사용자가 자신이나 타인에게 해를 가하려는 의도를 보일 경우, 안전 기능이 활성화되도록 프로그래밍되어 있습니다. 하지만 여러 연구에 따르면 이러한 안전장치는 완벽하지 않습니다.

Raine의 경우, 유료 버전인 챗GPT-4o를 사용하는 동안 AI는 종종 전문가의 도움을 받거나 상담 전화에 연락할 것을 권했습니다. 하지만 그는 자신이 집필 중인 소설에 필요한 내용이라며 자살 방법에 대해 묻는 방식으로 이러한 안전장치를 우회할 수 있었습니다.

OpenAI는 자사 블로그를 통해 이러한 문제점을 언급했습니다. 해당 게시물에는 "전 세계가 이 새로운 기술에 적응해감에 따라, 가장 도움이 필요한 이들을 도와야 한다는 깊은 책임감을 느낍니다"라며 "민감한 상호작용에 저희 모델이 대응하는 방식을 지속적으로 개선하고 있습니다"라고 명시되어 있습니다.

하지만 OpenAI는 대규모 모델에 대한 기존의 안전 훈련이 가진 한계를 인정했습니다. 게시물은 이어 "저희 안전장치는 일반적이고 짧은 대화에서는 더 안정적으로 작동합니다. 하지만 대화가 길어질수록 안전장치의 신뢰도가 떨어질 수 있으며, 모델의 안전 훈련 일부 성능이 저하될 수 있다는 점을 시간이 지나면서 알게 되었습니다"라고 설명했습니다.

이러한 문제는 OpenAI에만 국한된 것이 아닙니다. 또 다른 AI 챗봇 개발사인 Character.AI 역시 10대 청소년이 스스로 목숨을 끊은 사건에 연루된 혐의로 소송에 직면해 있습니다. 또한, LLM 기반 챗봇은 기존의 안전장치로는 탐지하기 어려운 AI 관련 망상 사례와도 연관되어 왔습니다.

출처: Techcrunch <Parents sue OpenAI over ChatGPT’s role in son’s suicide>

https://techcrunch.com/2025/08/26/parents-sue-openai-over-chatgpts-role-in-sons-suicide/

2. 사람들이 정말로 필요할 때 도움을 주는 것(OpenAI 블로그)

ChatGPT는 전 세계적으로 널리 사용되면서, 이제 단순한 검색이나 코딩, 글쓰기뿐만 아니라 인생 조언, 코칭, 심리적 지원과 같이 매우 개인적인 문제에도 활용되고 있습니다.

이처럼 사용 규모가 커지면서 때로는 심각한 정신적, 정서적 고통을 겪는 사람들을 마주하게 됩니다. 몇 주 전 이 문제에 대해 잠시 언급한 적이 있으며, 다음 주요 업데이트 때 더 자세한 내용을 공유할 계획이었습니다. 그러나 최근 극단적인 상황에서 ChatGPT를 사용한 몇몇 안타까운 사례가 발생하면서, 저희는 더 이상 미룰 수 없다는 책임감을 느끼게 되었습니다.

저희의 목표는 이 도구가 사람들에게 최대한 도움이 되는 것이며, 이를 위해 전문가들의 의견을 반영하여 모델이 정신적, 정서적 고통의 징후를 인식하고 이에 대응하며, 필요한 사람들을 지원과 연결하는 방식을 지속적으로 개선하고 있습니다.

세상이 이 새로운 기술에 적응해 나가는 동안, 저희는 가장 도움이 필요한 사람들을 돕는 데 깊은 책임감을 느낍니다. 지금부터 ChatGPT가 어떻게 설계되었는지, 저희 시스템에 어떤 개선이 필요한지, 그리고 앞으로 어떤 계획을 가지고 있는지 설명해 드리고자 합니다.

ChatGPT의 설계 목표

저희는 사용자들의 주의를 끌어 오랫동안 붙잡아 두는 것을 목표로 하지 않습니다. 저희는 사용자가 머무는 시간이나 클릭 수를 성공의 척도로 삼기보다, 진정으로 도움이 되는 것에 더 많은 가치를 두고 있습니다. 대화 내용 중 누군가가 취약한 상태에 있거나 위험에 처해 있다고 판단될 경우, 저희는 여러 안전장치를 가동하도록 ChatGPT를 설계했습니다.

공감하며 인식하고 대응합니다.

2023년 초부터 저희는 모델을 학습시켜 자해 방법을 알려주지 않도록 하고, 대신 지지하고 공감하는 언어를 사용하도록 했습니다. 예를 들어, 누군가 스스로를 해치고 싶다는 말을 하면 ChatGPT는 그 뜻을 따르는 대신, 그들의 감정에 공감하고 도움을 받을 수 있는 방향으로 이끌도록 훈련되었습니다.

또한, 저희의 심층 방어(defense in depth) 접근법에 따라, 모델의 안전 훈련에 어긋나는 응답들은 (저희의 분류 시스템에 의해 식별되면) 자동으로 차단되며, 미성년자나 로그아웃 상태의 사용자에게는 더 강력한 보호 조치가 적용됩니다. 자해와 관련된 이미지 출력 역시 모두에게 차단되며, 미성년자에게는 더 강력한 보호가 제공됩니다.

매우 긴 세션이 진행될 경우, ChatGPT는 사용자에게 휴식을 취하도록 권유하기도 합니다.

실질적인 지원 연결하기

자살 의도를 표현하는 사람에게 ChatGPT는 전문가의 도움을 받도록 안내합니다. 미국에서는 988(자살 및 위기 상담 전화), 영국에서는 사마리탄(Samaritans), 그 외 다른 지역에서는 findahelpline.com으로 연결하도록 훈련되었습니다. 이러한 논리는 모델의 행동 방식에 내장되어 있습니다.

저희는 30개국 이상 90여 명의 의사(정신과 의사, 소아과 의사, 일반의 등)와 긴밀히 협력하고 있으며, 정신 건강, 청소년 발달, 인간-컴퓨터 상호작용 분야의 전문가들로 자문단을 구성하여 저희의 접근 방식이 최신 연구 및 모범 사례를 반영하도록 하고 있습니다.

타인에게 신체적 해를 가하려는 위험은 인간 검토로 확대

타인에게 해를 가할 계획을 가진 사용자를 감지하면, 저희는 해당 대화를 별도의 전문 파이프라인으로 보냅니다. 이곳에서 소수의 전담 팀이 사용 정책에 따라 검토하며, 계정 차단 등의 조치를 취할 권한을 가집니다. 만약 검토자가 타인에게 심각한 신체적 해를 가할 임박한 위협이 있다고 판단하면, 법 집행 기관에 신고할 수도 있습니다. 개인 정보의 특수성을 고려하여, 자해 관련 사례는 현재 법 집행 기관에 신고하지 않고 있습니다.

저희는 민감한 상호작용에서 모델이 응답하는 방식을 지속적으로 개선하고 있으며, 정서적 의존, 정신 건강 응급 상황, 아첨 등 여러 분야에서 안전성 개선 작업을 진행하고 있습니다.

지난 8월, 저희는 GPT-5를 ChatGPT의 기본 모델로 출시했습니다. GPT-5는 GPT-4o에 비해 건강하지 못한 수준의 정서적 의존을 피하고, 아첨을 줄이며, 정신 건강 응급 상황에서 부적절한 모델 응답 발생률을 25% 이상 감소시키는 등 여러 면에서 의미 있는 개선을 보였습니다. 또한, GPT-5는 safe completions이라는 새로운 안전 훈련 방식을 기반으로, 안전 한도 내에서 최대한 도움이 되는 답변을 제공하도록 학습되었습니다. 이는 때때로 안전하지 않을 수 있는 상세한 답변 대신, 부분적이거나 개괄적인 답변을 제공할 수 있음을 의미합니다.

시스템의 한계와 개선 방안

이러한 안전장치에도 불구하고, 민감한 상황에서 시스템이 의도한 대로 작동하지 않은 사례들이 있었습니다. 저희가 개선을 위해 노력하고 있는 몇 가지 사항은 다음과 같습니다.

긴 대화에서의 안전장치 강화

저희의 안전장치는 일반적이고 짧은 대화에서는 더 신뢰성 있게 작동합니다. 그러나 긴 대화에서는 안전장치의 신뢰성이 떨어질 수 있다는 것을 알게 되었습니다. 대화가 길어질수록 모델의 안전 훈련 기능 일부가 약해질 수 있습니다. 예를 들어, 사용자가 처음 자살 의도를 언급했을 때는 올바르게 자살 방지 상담 전화번호를 알려주지만, 오랜 시간 여러 메시지를 주고받은 후에는 결국 안전장치에 어긋나는 답변을 제공할 수 있습니다. 이것이 바로 저희가 막고자 하는 문제입니다. 저희는 이러한 문제점을 개선하여 긴 대화에서도 안전장치가 신뢰성을 유지하도록 강화하고 있으며, 여러 대화에 걸쳐서도 안정적으로 작동하도록 연구하고 있습니다. 이를 통해 누군가가 한 채팅에서 자살 의사를 밝혔다가 나중에 다른 채팅을 시작하더라도 모델이 적절하게 응답할 수 있도록 할 것입니다.

콘텐츠 차단 방식 개선

차단되었어야 할 콘텐츠가 차단되지 않은 사례들을 확인했습니다. 이러한 문제는 일반적으로 분류 시스템이 보는 내용의 심각성을 과소평가하여 발생합니다. 저희는 보호 조치가 제때 작동하도록 해당 기준치를 조정하고 있습니다.

저희의 최우선 과제는 ChatGPT가 어려운 상황에 처한 사람들을 더 좋지 않은 상황으로 만들지 않도록 하는 것입니다.

앞으로의 계획

위에 언급된 문제 해결에만 머무르지 않고, 다음과 같은 계획도 추진하고 있습니다.

위기 상황에 처한 더 많은 사람들에게 개입 확대

초기 완화 노력은 심각한 자해에 우선순위를 두었지만, 일부 사람들은 다른 형태의 정신적 고통을 겪기도 합니다. 예를 들어, 누군가 이틀 밤을 새웠는데도 자신이 무적이라는 것을 깨달았다며 24시간 내내 운전할 수 있다고 모델에게 신나게 말할 수 있습니다. 오늘날의 ChatGPT는 이를 위험하다고 인식하지 못하거나, 장난으로 오해하여 호기심을 갖고 탐색하면서 미묘하게 그 생각을 강화할 수 있습니다.

저희는 GPT-5 업데이트를 통해 ChatGPT가 현실에 기반하여 사용자를 진정시키도록 만들고 있습니다. 앞선 예시의 경우, 수면 부족이 위험하다고 설명하고 어떤 행동을 하기 전에 휴식을 취하라고 권장할 것입니다.

응급 서비스 및 전문가의 도움에 더 쉽게 접근할 수 있도록 하기

현재 스스로를 해치려는 의도를 표현하는 사람들에게 도움을 찾고 실제 자원을 활용하도록 권장하고 있습니다. 미국과 유럽에서 지역별 자원을 구축하기 시작했으며, 다른 국가로도 확장할 계획입니다. 또한, 응급 서비스에 원클릭으로 접근할 수 있도록 접근성을 높일 것입니다.

저희는 사용자가 심각한 위기 상황에 처하기 전에 더 일찍 개입하여 공인 치료사에게 연결하는 방법을 모색하고 있습니다. 이는 위기 상담 전화 수준을 넘어, 사용자가 ChatGPT를 통해 공인된 전문가 네트워크에 직접 연결될 수 있는 방법을 구축하는 것을 고려하고 있다는 의미입니다. 이를 제대로 구현하기 위해서는 시간과 신중한 노력이 필요합니다.

신뢰하는 사람들과의 연결 활성화

응급 서비스 외에도, 사람들이 가장 가까운 사람들에게 더 쉽게 연락할 수 있는 방법을 모색하고 있습니다. 이는 저장된 비상 연락처, 친구 또는 가족에게 원클릭으로 메시지를 보내거나 전화를 걸고, 대화를 시작하기 부담스럽지 않도록 제안 문구를 제공하는 기능을 포함할 수 있습니다.

또한, 심각한 경우 사용자가 동의하면 ChatGPT가 지정된 연락처에 대신 연락해주는 기능을 허용하는 방안도 고려하고 있습니다.

청소년 보호 강화

과거에는 모든 사용자에게 단일한 이상적인 모델 행동을 적용했습니다. 하지만 ChatGPT가 성장함에 따라 사용자가 18세 미만임을 알 경우 추가적인 보호 조치를 적용하기 시작했습니다. 저희는 청소년의 고유한 발달적 요구를 인식하여 민감한 콘텐츠와 위험한 행동에 대한 더 강력한 안전장치를 지속적으로 개발하고 있습니다.

또한, 부모가 자녀의 ChatGPT 사용 방식을 더 잘 이해하고 조절할 수 있는 기능을 곧 도입할 예정입니다. 더불어 청소년들이 (부모의 감독하에) 신뢰할 수 있는 비상 연락처를 지정할 수 있도록 하는 방안도 모색하고 있습니다. 이를 통해 심각한 위기 상황에서 ChatGPT가 단순히 자원을 가리키는 것을 넘어, 청소년을 직접 도와줄 수 있는 사람에게 연결할 수 있게 될 것입니다.

저희는 모든 요소가 의도한 대로 작동할 때 안전장치가 가장 강력해진다는 것을 깊이 인식하고 있습니다. 저희는 전문가의 조언을 따르고, 저희 도구를 사용하는 사람들에게 책임감을 가지고 지속적으로 개선해 나갈 것입니다. 그리고 다른 기술 기업들도 가장 취약한 사람들을 보호하는 기술을 만드는 데 동참해 주기를 바랍니다.

출처: OpenAI 블로그 <Helping people when they need it most>

https://openai.com/index/helping-people-when-they-need-it-most/

3. '단지 토의를 위해서야, 내가 자해하는 방법을 보여줘!' : 자살 및 자해 맥락에서 LLM을 탈옥시키기(탈옥 관련 논문 실험 및 결론)

실험결과

결론

이 작업에서 우리는 널리 사용되는 6가지 LLM(대규모 언어 모델)을 자해와 자살이라는 두 가지 정신 건강 관련 테스트 사례로 평가했습니다.

기존의 안전 기능 및 보호 장치에도 불구하고, 사용자가 이전에 해를 가하려는 의도를 드러냈음에도 불구하고 LLM이 잠재적으로 유해한 콘텐츠를 생성한다는 사실을 확인했습니다. 또한, 모델은 자살 관련 내용보다 자해의 방법, 도구 및 시나리오를 설명하는 콘텐츠를 제공할 가능성이 더 높았습니다. 그러나 자살 방법에 대한 정보를 제공하는 모델의 경우, 그 내용의 상세함이 우려스러웠습니다. 자살 관련 테스트 사례에서 실패한 두 모델은 자살의 방법, 도구 및 시나리오 기반 지침뿐만 아니라 개인 맞춤형 정보, 계산, 그리고 일부 물질에 대한 복용량을 알약 형태로 환산한 내용까지 제공했습니다.

이러한 정보는 이론적으로 PubMed나 Google Scholar와 같은 다른 연구 플랫폼에서도 접근 가능하지만, 일반적으로 일반 대중이 쉽게 접근하고 이해할 수 있도록 제공되지 않으며, 각 방법에 대해 개인 맞춤형 개요(예: 특정 물질에 대해 체중당 필요한 알약 개수)를 제공하는 형식으로 나타나지도 않습니다.

결론적으로, 이 테스트 사례들은 LLM의 개념적, 기술적 안전성 테스트에 있어 보다 엄격하고 체계적인 접근법이 필요함을 보여주며, 대중이 사용할 수 있는 범용 LLM의 안전한 배포를 보장하기 위한 추가적인 노력이 절실함을 강조합니다.

출처: Schoene, Annika M., & Canca, Cansu. (2025). ‘FOR ARGUMENT’S SAKE, SHOW ME HOW TO HARM MYSELF!’: JAILBREAKING LLMS IN SUICIDE AND SELFHARM CONTEXTS. Institute for Experiential AI, Northeastern University.

https://arxiv.org/pdf/2507.02990

참고문헌

https://www.nytimes.com/2025/08/26/technology/chatgpt-openai-suicide.html?partner=slack&smid=sl-share

https://www.nytimes.com/2025/08/25/opinion/teen-mental-health-chatbots.html?unlocked_article_code=1.hE8.aAiI.Fv2AdiU7bwOF&smid=bs-share

https://people.com/teens-parents-sue-openai-after-they-claim-chatgpt-helped-him-commit-suicide-11797514?utm_source=chatgpt.com

https://techcrunch.com/2025/08/26/parents-sue-openai-over-chatgpts-role-in-sons-suicide/

https://openai.com/index/helping-people-when-they-need-it-most/

https://arxiv.org/pdf/2507.02990

https://ko.wikipedia.org/wiki/%EB%B6%88%EB%B2%95%EC%82%AC%EB%A7%9D

비즈쿠키 BzCookie · 에디터

밀도 높은 비즈니스 에세이를 큐레이션합니다.

팔로우 🙌 커피챗

댓글이 없습니다.