August 18, 2025
2 min read
GDPR에 따른 익명화된 데이터 분석에 따르면, 데이터는 “데이터 주체를 식별할 수 없거나 더 이상 식별할 수 없도록 익명으로 처리되는” 경우 익명화된 것으로 간주됩니다(GDPR, 전문 26). 이 기준은 Article 29 Working Party에 의해 명확해졌으며, 이들은 익명화는 되돌릴 수 없어야 하며 “재식별 위험이 무시할 수 있을 정도로 작아야 한다”고 강조했습니다(WP29 의견 05/2014).
주요 결과:
익명화 기술:
일반적인 방법으로는 집계, 데이터 마스킹, 무작위화가 있습니다. 그러나 진정한 익명화는 이러한 과정 중 어느 것도 다른 접근 가능한 데이터 세트와 결합하더라도 재식별의 가능성을 남기지 않아야 합니다 (Ohm, 2010).
법적 지위:
익명화된 데이터는 개인 데이터의 정의에서 벗어나므로 GDPR 제한의 적용을 받지 않습니다 (GDPR, 제4조 1항).
"식별되었거나 식별 가능한 자연인과 관련이 없거나, 데이터 주체를 식별할 수 없거나 더는 식별할 수 없도록 익명으로 처리된 개인 데이터"는 개인 데이터가 아닙니다 (GDPR 전문 26).
실질적인 과제:
연구자들은 데이터 분석 기술의 발전과 보조 데이터의 가용성 증가로 인해 완전한 익명화는 거의 달성할 수 없다고 주장합니다. Narayanan과 Shmatikov(2008)는 비식별화된 Netflix 시청 기록이 IMDb 평점과 연결되어 재식별될 수 있음을 입증했습니다.
재식별 위험:
데이터 세트가 풍부하거나 공격자가 배경 정보를 가지고 있을 때 위험은 증가합니다. GDPR은 "합리적인 가능성" 테스트를 요구합니다. 즉, 식별이 "합리적으로 가능성이 있는" 경우 해당 데이터는 익명화된 것으로 간주되어서는 안 됩니다.
가명 처리와 익명 처리:
GDPR은 이 둘을 구분합니다:
결과는 다음을 나타냅니다:
요약하면, GDPR에 따른 익명화된 데이터는 되돌릴 수 없게 비식별화된 정보를 의미하며, "사용될 합리적 가능성이 있는" 어떠한 수단으로도 식별이 불가능한 경우입니다. 하지만 진화하는 위협 때문에 익명화 과정에 대한 지속적인 평가가 필수적입니다.