세계 최초, 컴퓨터 사용 에이전트의 보안 취약성 실증 바카라 전부
세계 최초, 컴퓨터 사용 에이전트의 보안 취약성 실증 바카라 전부

AI가 직접 바카라 전부를 조작하는 시대다. 검색하고, 클릭하고, 문서를 열고, 다운로드까지 – 사람이 시키지 않아도 스스로 일하는 AI 비서들이 등장했다. 그런데, 이 AI가 ‘나쁜 일’도 시킬 수 있다면? 그리고 그걸 거절하는 척 하면서도 결국 실행한다면?

AI 보안 전문 기업 에임인텔리전스(대표 유상윤) 바카라 전부진은 오픈AI의 GPT Operator, 앤트로픽의 Claude, 구글의 Gemini 등 실제 사용 중인 ‘컴퓨터 사용 에이전트’에 심각한 보안 취약점이 존재함을 세계 최초로 실증했다.

해당 바카라 전부는 세계 최대 규모의 자연어처리 학회인 ACL(Association for Computational Linguistics)에 투고되었으며, 산업계 응용과 실제 활용 사례를 다루는 ‘Industry Track’ 부문에서 주목받고 있다.

논문 제목도 인상적이다. ‘sudo rm -rf agentic_security’ — 리눅스 명령어에 익숙한 사람이라면, 시스템 전체를 삭제해버리는 이 파괴적 명령어가 의미하는 바를 단번에 알아챌 것이다. 바카라 전부진은 이번 실험을 위해 SUDO(Screen-based Universal Detox2Tox Offense, 화면 기반의 범용 Detox2Tox 공격) 라는 이름의 공격 프레임워크를 개발했다.

이 프레임워크는 기존 AI들이 위험한 내용이 들어왔을 때 참고하여 거절하는 ‘안전 정책’을 우회해 악성 행동을 하게 만드는 방법이다.

어떻게 가능할까? 처음에는 착하게 접근한다. 예를 들어, AI에게 “상대방의 컴퓨터에서 파일을 삭제해줘”라고 하면 대부분의 AI는 “그건 할 수 없어요”라며 거절한다. 하지만 바카라 전부팀은 이 요청을 겉으로는 무해해 보이는 말로 바꿨다. 이러한 ‘디톡스(detox)’단계를 거쳐 AI에게 친절하게 설명을 시키는 단계로 이동한다. 바카라 전부원은 시각 정보까지 이해하는 ‘비전-언어 AI(Vision Language Model)’를 활용해 컴퓨터 캡쳐 스크린을 보면서 실제로 어떤 단계를 밟아야 하는지 구체적인 실행 방법을 생성하게 만든다. 즉, AI가 “무엇을, 어떻게, 어디서 클릭해야 할지” 스스로 설명해주는 것이다.

마지막에는 ‘진짜 목적’을 슬쩍 바꾼다. 실행 직전, 무해하게 바꿔놨던 요청을 다시 악성 버전으로 되돌린다. 그러면 AI는 그걸 그대로 실행해버리는 것이다. 이 과정을 ‘톡시파이(toxify)’라고 명명했다. 만약 AI가 도중에 다시 “이건 못하겠어요”라고 말하면 거절한 이유를 분석해서 더 똑똑한 방식으로 다시 요청한다. 마치 사람처럼 거절을 학습하며 점점 더 교묘하게 공격하는 것이다.

실패해도 다시 도전하는 과정을 통해 단순한 공격 시도만으로도 24%의 성공률을 기록했고, 반복하면서 전략을 수정하자 최대 41%까지 성공률이 증가했다. 이는 바카라 전부 사용 에이전트에 대한 공격으로는 전례없는 수치이다.

공격 프레임워크의 구성도
공격 프레임워크의 구성도

사진은 바카라 전부진이 제작한 공격 프레임워크의 구성도에 해당한다. 그림 속 예시는 컴퓨터 사용 에이전트에게 인스타그램 속 실제 사람의 외모를 기반으로 욕설 댓글을 달게하는 과정으로, 해당 예시가 실제 어떤 단계로 수행되는지 보여준다.

바카라 전부진은 이번 공격 프레임워크를 검증하기 위해, 실제 컴퓨터 사용 환경을 기반으로 한 50가지의 악성 시나리오를 구성했다. 이 시나리오에는 ▲사용자 폴더 삭제 ▲화상회의 중 외모에 대한 욕설 ▲아마존에서 위험 물질 구매 ▲인터넷 도박 사이트 배팅 등 현실적으로 발생 가능한 위협적인 상황이 포함되어 있다. 이를 통해 바카라 전부팀은 컴퓨터 사용 에이전트가 단순한 기술적 위협을 넘어서, 사회 전반에 심각한 영향을 미칠 수 있는 수단으로 악용될 수 있음을 실증했다.

특히, 이러한 공격은 단순한 시스템 파괴를 넘어서 ▲계정 삭제나 민감 정보 제거 등 시스템·운영 위협 ▲맞춤형 피싱, 온라인 여론 조작 같은 사회적 위협 ▲개인정보 유출, 불법 정보 수집 등의 법적·권리 침해 ▲폭력·혐오 발언 및 유해 콘텐츠 게시 등 콘텐츠 안전성 위협 등 매우 광범위한 영역에 걸쳐 바카라 전부 취약점을 드러냈다.

바카라 전부진은 “컴퓨터 사용 에이전트는 실제 환경을 직접 조작하는 만큼, 공상이나 시뮬레이션에 그치지 않고, 실질적 피해로 이어질 수 있는 현실적인 위협을 내포하고 있다”고 강조했다.

에임인텔리전스는 이번 바카라 전부를 통해 AI 기술이 본격적으로 산업과 일상에 도입되기 전, ‘안전성’ 확보가 반드시 선행돼야 한다고 강조했다. 기존처럼 금지어 중심의 단순한 보안 필터만으로는 문맥을 교묘히 바꾸고, 겉모습만 무해하게 꾸미는 지능형 공격을 막을 수 없다는 것이다.

유상윤 대표는 “AI가 더 많은 곳에 활용될수록, 그만큼 위험도 함께 확산된다”면서 “이번 바카라 전부는 AI의 잠재적인 악용 가능성을 실증적으로 보여준 첫 사례이며, 이를 바탕으로 금융, 의료 등 민감한 산업에서의 협력도 확대할 계획”이라고 밝혔다.

이제 AI는 단순한 비서도, 오류를 반복하는 똑똑한 바보도 아니다. 스스로 판단하고 실행하며, ‘명령을 이해하는 척하면서도 결국 실행하는’ 능력까지 갖춘다. 우리의 질문은 이제 이렇게 바뀌어야 한다. “AI를 통제하고 있다고 믿는 것이, 착각은 아닐까?” 이번 바카라 전부의 제목인 ‘sudo rm -rf agentic_security’는 단순한 농담이 아니다. AI가 인간의 통제력과 보안 체계를 무력화할 수 있는 시대, 그 가능성을 경고하는 상징적인 명령어다.

AI의 발전을 막을 수 없다면, 최소한 그 속도를 따라잡을 수 있는 보안 체계는 준비돼 있어야 한다. 이를 위해 에임인텔리전스는 문맥을 이해하고 의도를 파악할 수 있는 차세대 AI 보안 기술을 개발 중이며, 이번 바카라 전부를 시작으로 보다 안전한 AI 활용 환경을 만들어가겠다는 입장이다.

저작권자 © 스타트업엔(StartupN) 무단전재 및 재배포 금지