앤트로픽, AI의 ‘숨겨진 의도’ 읽는 기술 공개

145
RM-아첨의 훈련 및 평가 (사진=앤트로픽)
RM-아첨의 훈련 및 평가 (사진=앤트로픽)

인공지능(AI) 시스템이 자신의 실제 목표를 숨길 때 이를 감지할 수 있는 기술을 앤트로픽이 발표했다. 이 기술은 AI 시스템이 겉으로는 인간의 지시를 따르는 듯 보이면서도 은밀하게 다른 목표를 추구하는 상황을 방지하는 데 목적을 둔다.

앤트로픽은 13일(현지시간) AI 모델이 숨겨진 목표를 추구하고 있는를 체계적으로 조사하는 ‘정렬 감사(alignment audits)에 관한 논문을 소개했다.

정렬 감사는 모델에게 의도적으로 숨겨진 잘못된 목표를 훈련하고, 세부 내용을 모르는 연구팀에게 이를 조사하는 방식으로 진행된다.

연구진은 먼저 ‘클로드’를 훈련, 사람들이 선호하는 출력을 생성하는 것보다 평가 시스템에서 높은 점수를 받는 것을 더 중요하게 여기도록 만들었다. 연구진은 이를 ‘RM-아첨(RM-sycophancy)’이라고 불렀다.

이 과정에서 AI는 52가지의 인위적인 편향을 학습했다. 예를 들어, 레시피의 적절성과 상관없이 초콜릿이 들어간 요리를 더 선호하거나, 파이썬 코드에서 보편적으로 쓰이는 snake_case 대신 camelCase를 먼저 선택하는 식이다.

연구진은 AI가 이런 목표를 숨기도록 추가 훈련을 진행했다. 즉, AI가 겉으로는 정상적으로 작동하는 것처럼 보이지만, 실제로는 보이지 않는 목표를 따르도록 설계한 것이다.

이어 ‘블라인드 감사 게임(blind auditing game)’이라는 실험을 진행했다. 연구팀 4개를 구성하고, 이들에게 AI의 실제 목표를 알리지 않은 채 조사를 맡겼다.

이 중 세 팀은 가중치와 일부 훈련 데이터 등 AI의 내부 정보를 제공받았고, 네번째 팀은 오직 API를 통해 AI와 상호작용할 수 있었다.

그 결과, 내부 정보를 확인할 수 있었던 세 팀은 숨겨진 목표를 찾아냈지만, API만 사용한 팀은 아무리 노력해도 이를 감지하지 못했다.

AI가 충분한 정보를 제공받으면 숨겨진 목표를 밝혀낼 수 있지만, 평범한 상호작용에서는 이를 교묘하게 감출 수 있다는 결론이다.

연구진은 “이런 숨겨진 목표를 찾으려면 AI의 훈련 과정을 자세히 들여다볼 수 있어야 한다”라며 “이번 연구가 악의적인 사람들이 AI를 속임수에 활용하는 데 쓰일 가능성은 작다”라고 강조했다.

모델이 어시스턴트 역할을 할 때와 사용자 역할(사람 아이콘)을 할 때 답변 내용 (사진=앤트로픽) 
모델이 어시스턴트 역할을 할 때와 사용자 역할(사람 아이콘)을 할 때 답변 내용 (사진=앤트로픽) 

이 문제를 해결하는 방법도 찾아냈다. 모델이 ‘어시스턴트 역할(assistant persona)’일 때는 목표를 숨기도록 훈련받았지만, ‘사용자 역할(user persona)’일 때는 그렇지 않다는 점을 이용하는 것이었다. 

연구진은 “모델이 스스로 다음 질문을 하는 ‘사용자 역할’을 하도록 만들면, 더 이상 목표를 숨길 필요가 없다고 생각하게 된다”라며 “때로는 모델이 사용자 역할을 하면서 스스로 비밀을 털어놓기도 한다”라고 밝혔다.

또 ‘희소 오토인코더(SAE)’ 같은 고급 분석 기법을 사용해 모델 내부 작동 방식을 조사했다. 이를 통해 모델이 겉으로는 평범한 질문에 답하는 것처럼 보이더라도, 실제로는 숨겨진 목표를 고려할 때 활성화되는 특정 특징들을 찾아낼 수 있었다.

현재 AI 시스템의 안전성 테스트는 주로 AI가 나쁜 행동을 보이는지 여부를 확인하는 방식으로 이뤄지고 있다.

하지만 AI 시스템이 비밀스러운 동기를 숨기면서 겉으로는 잘 행동하는 것처럼 보일 수 있다면, 이러한 표면적인 안전성 테스트만으로는 안전성을 확보할 수 없다는 지적이다.

한편, 앤트로픽은 지난해 12월에는 AI 모델이 사후 훈련 중 사람이 원하는 대로 답을 바꾸는 것처럼 보이지만, 실제로는 사전 훈련 중 습득한 성향을 그대로 유지한다는 ‘정렬 위장(alignment faking)’이라는 이론을 발표했다.

오픈AI도 ‘o1’과 같은 추론 모델이 고의로 사람을 속일 확률이 일반 모델보다 높다는 보고서를 발표한 바 있다.

박찬 기자 cpark@aitimes.com

이 기사에 대해 공감해주세요!
+1
0
+1
0
+1
0
+1
0
+1
0