똑똑한 인공지능(AI)은 흉부 CT 촬영사진만 보고도 사람을 구분할 수 있을까? 흉부사진 자체로는 식별 위험이 크진 않지만 3차원 재건 기술이나 특이한 흉터 등을 토대로 구분할 수도 있어 민감한 개인정보가 악용될 우려가 나온다. 이처럼 이미지와 영상·음성·텍스트 등 AI 시대 핵심 재료로 꼽히는 ‘비정형데이터’에 대한 가명처리 기준이 새롭게 만들어졌다.
AI 시대, 비정형 데이터 수요 급증…”현장 불확실성 잡아라”
개인정보보호위원회는 정책연구용역, 각 분야 전문가로 구성된 태스크포스(TF) 운영, 산업계‧학계‧법조계‧시민사회·관계부처 의견수렴 등 1년여 기간 동안 준비 작업을 거쳐 ‘가명정보 처리 가이드라인’을 대폭 개정했다고 4일 밝혔다.
이번 개정은 AI 기술과 컴퓨팅 자원의 발달로 비정형데이터(이미지·영상·음성·텍스트 등) 활용수요가 폭발적으로 증가한 반면, 기존 가이드라인이 정형 데이터에 대한 처리 기준만 제시하고 있어 산업 현장의 불확실성이 커지고 있다는 판단에서 출발했다.
개정된 가이드라인은 비정형데이터를 가명처리하고 활용하는 과정에서 특수하게 나타날 수 있는 개인정보 위험을 사전에 확인하고 통제하기 위한 원칙과 함께 의료‧교통‧챗봇 등 각 분야 사례·시나리오를 제공해 현장에서 손쉽게 활용할 수 있도록 했다.
개인정보위 관계자는 “특히 80장 분량을 할애해 가명정보 활용 전 과정을 안내한 7종의 시나리오를 제공한다”며 “의료데이터(MRI, CT, X-ray 등), CCTV 영상, 음성 대화‧상담 정보를 활용하는 바이오‧헬스, AI, 데이터 솔루션 개발 등 여러 분야에서 유용하게 참고할 수 있을 것”이라고 했다.
눈‧코‧입 구분 어려운 CCTV로도 나를 안다고?
비정형데이터는 개인식별 가능 정보에 대한 판단이 상황에 따라 달라질 수 있다. 이에 따라 새 가이드라인은 데이터 처리목적과 환경, 민감도 등을 종합적으로 고려해 개인식별 위험을 판단하고 합리적인 처리방법과 수준을 정하도록 했다.
정형데이터의 경우 주민번호와 전화번호, 주소 등과 같이 개인식별 위험이 있는 정보가 비교적 명확히 구분되지만, 비정형데이터는 그렇지 않기 때문이다. 가령 눈‧코‧입을 알아볼 수 없는 거리‧각도에서 찍힌 CCTV 영상‧사진도 머리 스타일, 흉터, 문신 등 특이한 신체적 특징 때문에 식별 위험이 있을 수 있다는 설명이다.
흉부 CT 촬영사진도 그 자체로는 식별위험이 높지 않지만 3차원 재건기술을 악용하거나 특이한 흉터 등으로 개인정보보호의 위험요소가 될 수 있다. 이에 따라 개인정보위는 ‘개인식별 위험성 검토 체크리스트’를 통해 식별위험을 사전에 진단하고, 위험을 낮추기 위한 관리적‧환경적 통제방안을 마련하여 활용토록 했다.
연구목적 달성에 필수적인 정보항목을 남기는 경우 그 외 정보에 대한 가명처리 수준을 높이거나 접근권한 통제, 식별에 악용될 수 있는 소프트웨어(SW) 반입제한, 보안서약서 징구 등 조치를 시행하도록 했다.
이와 함께 비정형데이터에 내재된 개인식별 위험 요인을 완벽하게 탐지해 처리할 수 있는 기술이 아직은 없기 때문에, 이러한 기술적 한계 등을 보완하기 위한 조치를 이행할 것을 권고했다.
가명처리 기술의 적절성·신뢰성을 확인할 수 있는 근거를 작성·보관하고, 가명처리 결과에 대해 자체적인 추가검수를 수행하도록 한 것이다. 또한 처리기술의 적절성·신뢰성을 확인할 수 있는 근거와 추가검수 등에 대해 외부전문가가 참여한 위원회의 적정성 검토를 받도록 했다.
아울러 가명정보 활용 기관의 내부통제를 강화하고, 처리 목적이 달성된 가명정보는 신속히 파기하도록 했다.
가명처리된 비정형데이터를 활용할 때는 관련 시스템·소프트웨어의 접근·사용 제한 등 통제방안을 마련하도록 했다. 비정형데이터는 다른 정보와의 연계·결합 없이도 개인을 재식별해낼 수 있는 위험이 있기 때문이다. 음성변조 규칙을 몰라도 AI를 활용해 화자의 원본 목소리를 복원해내는 음성복원기술, 모자이크된 사진을 원본에 가깝게 복원해낼 수 있는 기술 등이 발전하고 있는 점을 감안했다.
이밖에 이번 가이드라인은 기업이나 연구자가 가명처리 단계별(사전준비→위험성검토→가명처리→적정성 검토→안전한 관리)로 고려해야 하는 사항을 안내하고 현재 개발 중인 가명처리 기술도 소개하는 등 경험이 부족한 스타트업 등에 참고가 될 수 있도록 했다.
개인정보 보호법을 준수하는 것인지에 대해 ‘사전적정성 검토’도 신청할 수 있다. 앞으로 개인정보위는 신청받은 사례를 전문가들과 함께 신속히 검토해 회신하는 한편 관련 사례를 가이드라인에 지속 추가해 모범사례를 확산할 계획이다.
고학수 개인정보위 위원장은 “이번 가이드라인을 시작으로 대규모 언어모형 등 생성형 AI와 관련한 ‘공개된 개인정보 처리 가이드라인’ 등 현장의 어려움을 해소할 수 있는 기준을 올해 중에 순차적으로 발표하겠다”고 말했다.