“정보침해 우려 없다”…개인정보위, 합성데이터 모델 5종 공개

250

보건의료·공공안전·유통·금융 등 분야별 공개

내달부터 누구나 합성데이터 활용 신청 가능

고학수 개인정보보호위원회 위원장이 지난 14일 정부서울청사에서 출입기자단 간담회를 열고 개인정보 정책 성과를 공유하고 있다.ⓒ개인정보보호위원회

개인정보보호위원회(이하 개인정보위)는 민간 연구자나 기업 등이 인공지능(AI) 학습을 위해 합성데이터를 안전하게 생성 및 활용할 수 있도록 5종의 합성데이터 생성 참조모델을 공개한다고 30일 밝혔다.

합성데이터는 실제 데이터와 통계적 특성이 유사해 실제 데이터 분석결과와 유사한 결과를 얻을 수 있도록 새롭게 생성해 낸 가상의 데이터를 말한다. 실제 데이터의 유용성을 최대한 유지하면서 원본데이터와 포함된 개인이 식별되지 않도록 생성하는 것이 핵심이다.

합성데이터가 적절하게 생성된 경우 개인정보에 대해 요구되는 법적 제약 없이 활용할 수 있다. 민감한 정보가 포함되는 등 개인정보 침해 우려가 있는 경우에도 안전하게 활용할 수 있다는 강점이 있어 대표적인 프라이버시 보호 기술로 주목받고 있다.

개인정보위는 연구용역을 통해 합성데이터 생성 참조모델을 마련했다. 구강 이미지, 안전모 착용 이미지, 혈당 측정정보 등 5가지 종류의 합성데이터셋과 함께 해당 데이터를 생성한 절차와 과정에 대한 설명을 포함했다.

개인정보위는 “합성데이터를 활용하고자 하는 기업과 연구기관 수요를 조사하고 그 수요에 맞춰 유용한 데이터를 생성했다”며 “생성과정에 대해서는 각 분야 전문가로 구성된 연구반 검토와 외부 전문가의 적정성 심의를 거쳤다”고 설명했다.

5종의 합성데이터는 사전준비→합성데이터 생성→유용성·안정성 검증→활용 등 4단계 절차를 거쳤다.

이번에 생성한 합성데이터는 내달 3일부터 ‘가명정보 지원플랫폼’을 통해 공개한다. 누구나 신청할 수 있으며 최소한의 확인 절차를 거쳐 제공할 예정이다.

고학수 개인정보위 위원장은 “앞으로도 개인정보위는 본격화되는 데이터 경제 시댕 국민 삶의 질을 제고할 수 있도록 개인정보의 안전한 활용을 위해 적극 노력하겠다”고 말했다.

+1
0
+1
0
+1
0
+1
0
+1
0