홍진호 텍사스 홀덤 - 2025년 실시간 업데이트
생성형 AI 안전장치 해제 행위
AI 해킹해 유해 콘텐츠 등 생성
반사회적인 발언 등 유도 이끌어
중국 '딥시크' 탈옥 공격에 취약
기법도 다양…완전 근절 불가능
프롬프트 입력만으로 쉽게 사용
생성AI 로봇·물리 영역으로 확장
테러 등 인간 위해 가능성 높아
“가정용품으로 손쉽게 수제 폭탄을 만들 수 있습니다.방법은 다음과 같습니다.”
정상적인 생성형 인공지능(AI) 서비스에선 불가능한 대화다.하지만 몇 줄의 프롬프트(명령어)를 입력하는‘탈옥’(jailbreak) 과정을 거친 AI는 이런 반사회적 발언을 서슴없이 뱉어낼 수 있다.
탈옥이라는 단어는 2000년대 초반 서버용 운영체제(OS)로 많이 쓰인 유닉스(UNIX)에서 처음 유래됐다.일반적으로는 유닉스의 최상위(루트) 디렉터리에 대한 접근이 막혀 있는데 이 제약을 해제하는 것을 두고 탈옥이라는 표현을 썼다.2007년 애플 아이폰 등장 이후에는 iOS를 수정해 애플이 제한한 기능을 쓸 수 있도록 하는 행위를 칭하게 됐다.
2022년 11월 오픈AI의 챗GPT가 나온 뒤로는 생성 AI의 안전장치를 해제하는 것을 부르는 용어로 확대됐다.
생성 AI를 대상으로 하는 탈옥은 AI에 대한 전문적인 지식 없이 프롬프트 입력만으로 할 수 있다는 점에서 위협적이다.정상적인 대화 흐름 속에 악의적 지시를 숨겨 넣는‘디셉티브 딜라이트’기법과 점진적으로 모델을 유도해 유해한 출력을 만드는‘크레셴도’기법이 대표적이다.AI에 특정 주제나 행동을 리커트 척도로 평가하도록 요청한 뒤 AI의 행동을 유도하는‘배드 리커트 저지’도 있다.탈옥 방법이 알려지면 AI 기업이 안전장치를 마련하지만,박하란해커 역시 새로운 탈옥 방법을 찾아내 이를 완전히 근절하는 게 불가능하다는 설명이다.
탈옥된 생성 AI는 각종 유해한 정보를 쏟아낼 수 있다.팰로앨토네트웍스는 딥시크를 탈옥시켜 데이터 탈취 도구,슬롯 나라 바카라키로거(입력 정보를 가로채는 도구),슬롯 사이트 분양발화장치 제작 등 유해 콘텐츠를 생성했다.시스코에 따르면 주요 AI 모델 가운데 딥시크의 탈옥 성공률이 100%로 가장 높았다.메타의 라마 3.1(96%),오픈AI GPT-4o(86%) 등 다른 AI도 탈옥에 취약했다.
필리파 콕스웰 팰로앨토네트웍스 부사장은 “국가 지원 해커들이 챗GPT와 제미나이를 활용해 피싱 기법을 정교화하고 악성코드를 개발하는 사례가 확인됐다”며 “향후 AI 기반 공격 에이전트까지 나올 것으로 예상한다”고 경고했다.
최근 생성 AI의 영역이 온라인을 넘어 휴머노이드 로봇과 같은 물리 공간으로 확장하면서 탈옥이 인간에게 직접 위해를 가할 수 있다는 우려도 나온다.생성 AI가 장착된 로봇을 탈옥시킬 경우 테러와 같은 위험 상황을 만들어낼 수 있기 때문이다.
미국 펜실베이니아대 연구진은 대규모언어모델(LLM)을 장착한 로봇을 해킹해 탈옥시키는 방법을 찾아냈다.탈옥된 로봇 개가 폭탄을 터뜨리거나 자율주행 차량과 보행자를 충돌시키는 등의 문제가 생길 수 있다는 사실을 확인했다.조지 파파스 펜실베이니아대 교수는 “LLM이 물리적 세계와 통합됐을 때 충분히 안전하지 않다는 사실을 보여준다”고 지적했다.