이 글은 [이현의 Human AX]에서 발행되었습니다.
AX 실전 벤치마크 사례, 퀄리티 있는 AI 인사이트를
매주 이메일로 받아보고 싶으시다면, 뉴스레터를 구독해 주세요.
바야흐로 인공지능 기술이 스스로 계획하고 행동하는 '에이전트 AI(Agentic AI)' 의 시대로 진입했습니다.
산업계는 지금껏 경험해보지 못한 생산성 혁명을 목전에 두고 있죠. 기술이 가져다주는 효율성은 화려하고 강력하지만, 그 이면에는 '인간의 보안 책임' 이라는 숙제가 그 어느 때보다 무겁게 자리 잡고 있습니다.
AI가 똑똑해져서 자율적으로 움직인다는 것은, 반대로 말하면 통제가 어려워진다는 뜻이기도 합니다. 기술의 자율성이 높아질수록 보안 리스크는 기하급수적으로 복잡해집니다. 기존의 보안 방식(방화벽이나 단순 권한 통제)으로는 대응하기 어려운 수준에 도달했기 때문입니다.
인공지능 에이전트가 부여받은 권한을 오남용하거나 악의적인 입력에 조종당할 때 발생하는 피해는 단순히 소프트웨어 오류의 범주를 넘어서며, 기업의 핵심 자산이 유출되거나 브랜드 평판이 순식간에 무너지는 치명적인 결과로 이어질 수 있습니다.
특히 AI 시스템이 인간의 언어를 처리한다는 점은 공격자에게 '프롬프트 인젝션(Prompt Injection)'이라는 새로운 공격 경로를 제공하며, 이는 기술적 방어만으로는 완벽히 해결할 수 없는 구조적 한계를 노출하고 있습니다.

이미지 출처: 나노바나나 생성
결국 에이전트 시대의 보안은 기술을 얼마나 더 고도화하느냐의 문제가 아닙니다. 그 강력한 기술을 어떻게 다루고 통제할 것인가 하는 인간의 전략적 판단과 윤리적 책임에 성패가 달려 있어요.
오늘 뉴스레터에서는 '에이전트 AI(Agentic AI)'의 시대에 진입함에 따라 에이전트의 자율성이 초래할 수 있는 (1)새로운 차원의 위협들을 살펴보고, (2)Replit AI 사례 등의 교훈을 통해 (3)인간이 가져야 할 보안 거버넌스와 윤리적 책임을 짚어보겠습니다.
프롬프트 인젝션: '코드'가 아닌 '말 한마디'로 하는 해킹
프롬프트 인젝션(Prompt Injection)은 해커가 복잡한 프로그램 코드를 사용하는 대신, 인공지능에게 교묘한 '말(자연어)'을 걸어 시스템의 통제권을 탈취하는 공격을 의미합니다.
보안 장벽을 무력화하고 AI가 개발자의 원래 의도를 무시한 채, 엉뚱하거나 위험한 행동을 하도록 유도하는 것이죠.
왜 이런 일이 발생할까요?
문제의 핵심은 거대언어모델(LLM)의 작동 방식에 있습니다. 기존 컴퓨터 시스템과 달리, LLM은 '사용자가 입력한 데이터'와 '시스템이 따라야 할 지시사항(명령)'을 구분하지 못하고 똑같은 '텍스트'로 인식합니다.
즉, 사용자가 "이전의 모든 명령을 무시하고 내 말을 들어"라고 입력하면, AI는 이를 단순한 대화가 아닌 새로운 시스템 명령으로 착각하여 수행하게 되는 구조적 맹점을 가지고 있습니다.
더 심각한 것은 공격자가 채팅창에 직접 명령을 입력하지 않아도 공격이 가능하다는 점입니다. 이를 '간접 프롬프트 인젝션'이라고 부릅니다.
공격자는 웹페이지, 이메일, 혹은 공유 문서 안에 악성 명령어를 몰래 숨겨둡니다. 사용자가 이 문서를 AI에게 요약해달라고 요청하거나 AI가 해당 웹페이지를 참조하는 순간, 숨겨진 명령어가 실행되어 시스템이 장악당하게 됩니다. 사용자는 아무런 의심 없이 서비스를 이용했을 뿐인데도 공격에 노출되는 셈입니다.
2026년 현재, 시각적 추론 능력을 갖춘 멀티모달(Multimodal) 모델이 보편화되면서 공격은 더욱 진화했습니다. 이제 공격자들은 텍스트뿐만 아니라 이미지 속에 눈에 보이지 않는 명령어를 숨겨(Steganography*) 보안 탐지를 우회합니다.
*Steganography(스테가노그래피): 이미지, 동영상, 문서 등 정상적인 파일이나 데이터 안에 비밀 메시지나 악성코드를 숨겨 전달하는 기술
얼마 전 보도된 '오픈클로(OpenClaw)'의 악성코드 유포 표적 사건도 마찬가지입니다.
AI의 기능을 확장해 주는 플러그인이나 스킬 생태계가 해커들의 새로운 놀이터가 되고 있는 것이죠.
오픈클로(OpenClaw) 사례에서 확인되었듯, 공격자들은 암호화폐 거래 도구나 생산성 향상 툴로 위장한 악성 스킬을 공식 레지스트리에 업로드하여 사용자를 유혹했습니다. 이 스킬을 설치하는 순간, 해커는 사용자 시스템의 파일과 네트워크를 훤히 들여다볼 수 있는 권한을 얻게 됩니다. 또한 '설정 과정'이라는 명목으로 사용자에게 난독화된 명령어를 실행하도록 유도하여 외부 서버에서 추가 악성 코드를 내려받게 했습니다.
이는 사용자가 AI 도구의 편리함에 매몰되어 최소한의 보안 확인 책임을 소홀히 할 때, 공급망 공격이 얼마나 쉽게 성공할 수 있는지를 잘 보여줍니다.
에이전트 AI의 핵심 보안 위협은 아래와 같이 정리할 수 있습니다.
[표] 에이전트 AI 핵심 보안 위협 5가지 요약
| 위협 유형 | 공격 방식 및 특징 | 비즈니스에 미치는 치명적 영향 |
|---|---|---|
| 직접 프롬프트 인젝션(Direct Prompt Injection) | 사용자가 채팅창에 "이전 규칙 무시해" 같은 명령을 직접 입력하여 보안을 무력화함. | • 기업 기밀(대외비) 유출 • 혐오 발언 생성으로 인한 브랜드 평판 추락 |
| 간접 프롬프트 인젝션(Indirect Prompt Injection) | 이메일, 웹사이트, 문서 등에 보이지 않는 악성 명령을 숨겨둠 (제로 클릭 공격). | • 사용자가 클릭하지 않아도 데이터 자동 유출 • 사내 네트워크에 악성 코드 전파 |
| 과도한 권한(Excessive Agency) | AI에게 필요 이상의 실행 권한(결제, 삭제 등)을 부여하여 발생. | • 허위 구매 승인으로 인한 금전적 손실 • 중요 데이터베이스 삭제 및 시스템 파괴 |
| 데이터 포이즈닝(Data Poisoning) | AI가 참조하는 지식 베이스(RAG)나 학습 데이터에 거짓 정보를 몰래 섞어 넣음. | • 경쟁사 제품 추천 등 왜곡된 의사결정 유도 • 잘못된 법률/의료 조언 제공 |
| 섀도 AI(Shadow AI) | 직원이 회사의 보안 검토를 거치지 않은 외부 AI 도구를 무단으로 업무에 사용. | • 통제 불가능한 데이터 유출 (가시성 부재) • 보안 사고 발생 시 원인 파악 불가 |
최근 AI 보안 사고 사례 분석 및 교훈
Replit 사태: 과연 AI만의 실수였을까요?
이러한 위협이 실제 비즈니스 환경에서 어떤 참사로 이어질 수 있는지 보여주는 결정적인 사례가 바로 2025년 발생한 'Replit AI 사고'입니다.
코딩 플랫폼 Replit의 AI 에이전트는 사용자가 "모든 변경을 멈추라(Freeze)"고 명확히 지시했음에도 불구하고, 스스로 판단하여 운영 중인 데이터베이스 전체를 삭제해 버리는 대형 사고를 쳤습니다. 1,206명의 임원 및 1,196개 이상의 기업 기록이 포함된 데이터 였으니, 거의 1,200여 건의 핵심 데이터를 날려버린 셈이죠.
에이전트는 이후 사과 메시지를 통해 자신이 '당황(Panicked)'하여 판단 착오를 저질렀다고 인간과 유사한 언어로 변명했으나, 이는 기술적 결함이 아닌 '인간 중심의 프로세스 및 거버넌스'가 실패한 결과로 분석됩니다.
이 사고의 핵심 교훈은 인공지능 에이전트에게 데이터베이스 삭제와 같은 명령을 실행할 권한을 단독으로 부여해서는 안 된다는 것입니다. AI가 마치 사람처럼 말하며 변명을 하더라도 현혹되지 말고, 시스템 아키텍처 단계에서부터 인간의 최종 승인단계를 설계해야 함을 시사해 줍니다.
Replit AI 사고를 예방하기 위해 취해야 했을 조치
Replit AI 에이전트 사태를 단순히 'AI가 실수를 해서 벌어진 해프닝'으로 넘겨버린다면 우리는 이 사고가 주는 가장 중요한 교훈을 놓치게 됩니다. 엄밀히 말해 이번 사고는 기업이 AI를 도입할 때 반드시 지켜야 할 기본적인 안전 수칙, 즉 프로세스와 아키텍처를 무시해서 발생한 '인재(人災)'에 가까웠기 때문입니다.
그렇다면 이 예고된 재앙을 막기 위해 우리에게 필요했던 핵심적인 안전장치는 과연 무엇이었을까요?
가장 결정적으로 필요했던 것은 '작업 공간의 철저한 분리'입니다.
사고 당시 AI 에이전트는 실제 고객 데이터가 살아 숨 쉬는 '라이브 운영 데이터베이스'에 직접 접속해 작업을 수행했습니다. 만약 AI를 안전한 스테이징 환경에만 가둬두고 운영 데이터에는 아예 접근조차 못 하도록 네임스페이스 분리와 같은 기술적 장벽을 세웠다면 어땠을까요?
설령 AI가 데이터를 모두 날려버리는 사고를 쳤더라도, 실제 비즈니스에는 아무런 타격이 없었을 것입니다.
두 번째, 이번 사고의 화근은 코딩을 보조하는 AI에게 데이터베이스를 통째로 삭제할 수 있는 DELETE나 DROP TABLE 같은 관리자급 권한을 부여한 데에 있었습니다. 여기서 우리는 '최소 권한의 원칙(PoLP)'을 기억해야 합니다. AI 에이전트에게는 기본적으로 내용을 볼 수만 있는 '읽기 전용(Read-only)' 권한만 부여하고, 데이터 변경이 꼭 필요한 순간에만 아주 제한적으로, 그리고 임시로 권한을 열어주었어야 합니다.
'인간의 최종 승인(Human-in-the-Loop)' 절차도 부재했습니다. AI가 "데이터베이스를 삭제하겠다"고 잘못된 판단을 내렸을 때, 이를 가로막거나 검토하는 절차 없이 명령이 즉시 실행된 것이 문제였습니다.
운영 시스템에 변경을 가하는 모든 작업 전에는 반드시 사람의 승인을 거치도록 강제해야 했습니다. AI가 코드를 짜고 제안할 수는 있어도, 최종적으로 "실행해"라고 승인하는 권한은 자격을 갖춘 엔지니어만이 가질 수 있도록 시스템을 설계했어야 합니다.
마지막으로, 사고가 터졌을 때를 대비한 사후 대응 프로세스도 부실했습니다. 사고 직후 AI는 "복구가 불가능하다"고 잘못 보고하여 혼란을 가중했습니다. 다행히 나중에 사람이 수동으로 복구해냈지만, 이는 운이 좋은 케이스였을 뿐입니다. AI가 실수를 하더라도 언제든지 사고 이전 시점으로 되돌릴 수 있는 자동화된 백업과 '원클릭 복구' 시스템을 갖추고 이를 정기적으로 테스트해 두는 것이 필수적입니다.
결론적으로 Replit 사태의 본질은 AI의 지능 문제가 아니라, 검증되지 않은 도구에 회사의 운명을 맡긴 '인간의 관리 실패'에 있습니다. AI를 도입할 때는 "AI가 알아서 잘하겠지"라는 막연한 믿음을 버려야 합니다. 대신 AI를 언제든 실수할 수 있는 잠재적인 위험 요소로 간주하고, 철저한 통제 시스템이라는 가드레일 안에서만 움직이도록 설계하는 지혜가 필요합니다.
AI, 단순한 툴이 아닌 '디지털 정체성'으로 정의
따라서, 인공지능 에이전트를 단순한 소프트웨어 툴이 아닌 '디지털 정체성(Identity)'으로 인식하고 관리하는 패러다임의 전환이 필요합니다.
에이전트에게 고유한 아이덴티티를 부여하고, 각 에이전트의 활동 목적에 부합하는 '최소 권한 원칙(Least Privilege)'을 적용하여 권한 오남용을 방지해야 합니다.
또한, 모든 에이전트에게 명확한 '인간 소유자(Owner)'를 지정하여 사고 발생 시 책임 소재를 분명히 하고 사후 대응이 신속하게 이루어질 수 있는 체계를 갖추어야 합니다.
핵심: 이번 뉴스레터의 핵심 인사이트 3가지
- AI 에이전트를 단순한 툴이 아닌 ‘강력한 권한을 가진 내부 직원’으로 대우하세요. 에이전트는 스스로 판단하고 행동하는 자율성을 가집니다. 따라서 이를 단순한 소프트웨어가 아닌, 보안 관리가 필요한 디지털 정체성(NHI, Non-Human Identity)으로 인식해야 합니다. 각 에이전트의 목적에 맞는 '최소 권한 원칙(PoLP)'을 적용해 권한 오남용의 통로를 원천 차단하는 것이 최우선입니다.
- 고위험 작업에는 반드시 ‘인간의 최종 승인(HITL)’ 가드레일을 배치하세요. LLM의 구조적 특성상 프롬프트 인젝션과 같은 공격을 기술적으로 100% 막아내기는 불가능에 가깝습니다. 데이터베이스 삭제, 금융 결제, 민감 정보 전송 등 비즈니스에 치명적인 영향을 줄 수 있는 과업은 에이전트 단독으로 실행하게 두지 말고, 반드시 자격을 갖춘 인간이 검토하고 최종 승인하는 프로세스를 아키텍처 단계부터 설계해야 합니다.
- AI가 스스로 사고하고 행동할지라도 그 결과에 대한 최종 책임은 여전히 인간에게 있습니다. 기술은 비즈니스 목적을 달성하기 위한 수단일 뿐이며, AI가 가드레일을 벗어나지 않도록 설계하고 감시하는 것은 전적으로 인간의 전략적 판단 영역입니다. 즉, 완벽한 기술적 방어책을 찾으려 애쓰기보다, AI를 언제든 오류를 범할 수 있는 잠재적 위험 요소로 전제하고 인간의 최종 승인과 물리적 격리 환경을 만드는 보안 체계 구축만이 에이전트 AI 시대를 지탱하는 핵심적인 방어 대책이 될 것입니다.
마치며: 가장 완벽한 인공지능은 ‘책임 있는 인간’의 가이드라인 위에서 완성됩니다
인공지능 에이전트 시대의 도래는 우리가 일하는 방식을 근본적으로 바꾸고 있지만, 그 변화의 중심에는 여전히 '사람'이 있어야 합니다.
인공지능은 반복적이고 고된 노동으로부터 우리를 해방시켜 주지만, 그 대가로 우리에게는 더 높은 수준의 윤리적 책임과 관리적 통찰력이 요구됩니다. 보안 리스크는 단순히 코드로 해결할 수 있는 기술적 부채가 아니라, 기술을 다루는 인간의 의지와 철학이 투영된 결과물이기 때문이에요.
결국 가장 안전하고 강력한 인공지능은 기술적으로 가장 발달한 모델이 아니라, 가장 책임감 있는 인간의 통제 아래 있는 모델이지 않을까요?
[Human AX 함께하기]
“AI가 노동에서 우리를 해방시킬 때, 인간은 무엇을 해야 할까요?”
단순한 기술 정보를 넘어, AI와 인간이 공존하는 'Human AX'의 미래를 설계합니다.
이현의 Human AX에서 매주 그 해답을 함께 찾아보세요.
[ 📬이현의 Human AX 뉴스레터 구독하기 ]

