합성 데이터는 익명 데이터가 아니다: AI 학습 거버넌스 기준
합성 데이터가 원본 민감 정보를 재현할 수 있는 위험을 줄이기 위해 검증, 라벨링, 사용 범위를 정리했다. Synthetic Data·AI Governance·Privacy 관점에서 처음 접하는 독자도 개념, 적용 조건, 실패 가능성을 차례대로 이해할 수 있게 설명한다.
핵심 요약
합성 데이터는 원본을 그대로 복사하지 않았다는 이유만으로 익명 데이터가 되지 않는다. 생성 모델이 희귀 사례를 기억하거나 원본과 매우 가까운 레코드를 만들 수 있으므로 데이터 계보, 근접 중복, 멤버십 추론, 희귀집단 노출을 검증하고 용도별 승인 범위를 정해야 한다.
합성 데이터는 테스트 환경에서 개인정보 원문 사용을 줄이고 부족한 사례를 보완하는 데 유용하다. 그러나 “가짜 값”이라는 설명만으로 외부 공유나 무제한 재사용을 정당화할 수는 없다. 생성기가 원본에 과적합되면 실제 개인과 거의 같은 레코드를 내놓을 수 있고, 공개된 다른 데이터와 결합하면 특정 집단이나 개인을 추론할 가능성도 생긴다.
NIST SP 800-188은 비식별화를 하나의 기법이 아니라 여러 접근의 조합으로 설명한다. 합성 데이터 프로젝트는 모델 개발인 동시에 데이터 공개 심사로 운영해야 한다.
1. 사용 목적을 먼저 등급화한다
| 사용 목적 | 기본 위험 | 필요한 승인·검증 |
|---|---|---|
| 내부 UI·파이프라인 테스트 | 비교적 낮음 | 직접식별자 금지, 근접 중복 검사 |
| 모델 학습·성능 보완 | 중간 | 희귀집단·편향·멤버십 추론 평가 |
| 협력사 제공 | 높음 | 계약, 결합 위험, 삭제 조건 검토 |
| 공개 데이터셋 | 매우 높음 | 독립 개인정보 평가와 법률 검토 |
같은 데이터라도 내부 테스트와 외부 공개는 위험이 다르다. “합성”이라는 라벨 하나로 모든 용도를 허용하지 말고 목적 변경이 생기면 다시 승인한다. 운영 데이터, 평가 데이터, 외부 배포본은 저장 위치와 접근권한도 분리한다.
2. 합성 데이터 카드에 남길 정보
- 원본 데이터셋 ID, 수집 기간, 소유자, 민감도와 허용 목적
- 생성기 종류·버전, 학습 코드·환경, 파라미터와 시드 관리
- 직접식별자 제거·토큰화·범주화 등 사전 처리
- 학습·검증·공격 평가에 사용한 분리 데이터
- 생성 레코드 수, 희귀 범주 처리, 후처리 규칙
- 개인정보 위험 지표와 활용도 지표, 실패한 테스트
- 승인자, 허용 사용처, 재배포 여부, 재검토 일자
난수 시드를 공개하지 않는다고 개인정보가 자동 보호되는 것은 아니다. 재현성을 위해 시드와 모델을 보관한다면 원본 데이터에 준하는 접근 통제가 필요한지 평가한다.
3. 최소 개인정보 위험 테스트
정확·근접 중복 검사는 합성 레코드가 원본과 완전히 같거나 지나치게 가까운지 본다. 연속형 값의 거리만 계산하면 범주형 조합과 희귀 속성을 놓칠 수 있으므로 데이터 유형에 맞는 거리 함수를 사용한다.
멤버십 추론 평가는 특정 레코드가 학습에 포함됐는지 공격자가 구분할 수 있는지 본다. 공격 성공률이 기준선보다 의미 있게 높다면 학습 데이터 존재 정보가 새는지 검토한다.
속성 추론과 연결 공격은 공개 정보나 별도 데이터와 결합했을 때 숨긴 민감 속성을 예측할 수 있는지 확인한다. 우편번호, 나이, 희귀 직업처럼 직접식별자가 아니어도 조합되면 식별력이 커진다.
희귀집단 검사는 전체 평균이 아니라 작은 집단별로 수행한다. 전체 중복률이 낮아도 희귀 질환, 고액 거래, 소수 지역 행이 사실상 원본을 재현할 수 있다.
형식적 보호가 필요하면 차등 개인정보보호를 검토할 수 있지만 알고리즘을 사용했다는 이름만으로 보장이 생기지는 않는다. 개인정보 예산, 구성, 구현과 공격 모델을 문서화한다.
4. 활용도 검증을 개인정보 평가와 분리한다
| 활용도 질문 | 예시 지표 | 주의점 |
|---|---|---|
| 분포를 보존하는가 | 범주 비율, 평균·분산, 상관 | 전체 평균이 희귀집단 오류를 숨김 |
| 모델 학습에 유효한가 | 합성 학습→실제 평가 성능 | 평가셋을 생성기 학습에 섞지 않음 |
| 업무 규칙을 만족하는가 | 참조 무결성, 날짜 순서 | 후처리로 원본이 재주입되지 않음 |
| 편향을 악화시키지 않는가 | 집단별 오류·커버리지 | 작은 집단을 과도하게 증폭하지 않음 |
합성 데이터가 안전해도 업무 목적에 쓸 수 없으면 의미가 없다. 반대로 원본과 너무 비슷해 높은 정확도를 보이는 것이 누출 신호일 수도 있다. 단일 품질 점수보다 목적별 합격 기준을 둔다.
5. 자주 발생하는 실패 모드
작은 데이터셋으로 과도하게 학습하면 기억이 커진다. 원본과 합성본을 같은 저장소에 섞으면 라벨을 잃고 원본처럼 재배포할 수 있다. 평가셋 오염은 성능을 부풀리고 개인정보 테스트를 무효화한다.
원본의 잘못된 라벨과 차별적 패턴이 그대로 복제될 수도 있다. 개인정보 위험이 낮다고 품질과 공정성이 확보되는 것은 아니다. 사람이 민감 레코드를 수동 보완하면서 원본을 다시 넣는 과정도 추적한다.
6. 운영 탐지 신호와 중단 기준
- 원본과의 정확 또는 근접 중복률이 승인 기준을 넘는다.
- 특정 희귀집단에서만 공격 성공률이 급격히 나빠진다.
- 생성기 버전은 바뀌었는데 개인정보 평가가 갱신되지 않았다.
- 데이터 라벨이 사라진 채 외부 저장소로 복제된다.
- 승인되지 않은 팀이 합성본을 실제 고객 데이터와 조인한다.
- 보존기간이 끝났는데 모델·체크포인트가 남아 있다.
외부 공유 전에는 자동 점수만 보지 말고 데이터 소유자, 개인정보, 보안 담당자가 실패 사례를 표본 검토한다. 위험 기준을 넘으면 일부 행 삭제보다 생성 조건과 원본 범위를 다시 설계한다.
배포 승인 체크리스트
- 데이터 카드에 원본 계보와 허용 목적이 있다.
- 생성·평가·공격 테스트 데이터가 분리돼 있다.
- 중복, 멤버십·속성 추론, 희귀집단 검사가 있다.
- 개인정보와 활용도 지표가 목적별 합격 기준을 가진다.
- 합성본·모델·체크포인트의 접근권한과 만료일이 있다.
- 외부 제공 시 재배포, 결합, 삭제 조건을 검토했다.
- “익명” 표시는 관할 법과 전문 검토 없이 자동 부여하지 않는다.
함께 읽을 글
사내 AI 입력 추적은 AI 도구 데이터 유출을 막는 로그 설계 기준, 모델·데이터의 공급망 증거는 SBOM 거버넌스 실무 가이드와 연결할 수 있다.
참고 기준
합성 데이터의 신뢰성은 생성 모델 이름이 아니라 누출 가능성을 어떤 공격으로 시험했고 어떤 사용만 허용했는지를 재현할 수 있을 때 생긴다.
전체 댓글 0개