데이터 보호는 모든 분석 프로젝트에서 중요합니다.

데이터를 익명화하고 가명 화하는 방법

Unsplash에 Francisco Suarez의 사진

개인 데이터는 데이터 보호의 핵심 개념입니다. 데이터 보호법은 데이터가 개인과 관련된 경우에만 적용됩니다. 예를 들어 GDPR은 벌금을 최대 2 천만 유로까지 인상하거나 대기업 및 그룹의 경우 전년도 글로벌 그룹 매출액의 최대 4 %까지 인상합니다 [1]. 빅 데이터, 데이터 과학 또는 관련 분야에서 일할 때 이러한 법률과 익명화 및 가명 화가 사용 사례에 데이터를 계속 사용할 수있는 가능성을 제공하는 방법에 대해 알아야합니다.

개인 정보 란?

이것은 식별되거나 식별 가능한 사람과 관련된 모든 정보입니다. "식별 가능한"사람은 특히 이름, 식별 번호, 위치 데이터 또는 기타 특수 특성과 같은 식별자와의 연결을 통해 직접 또는 간접적으로 식별 할 수있는 사람입니다. 여기에서는 사람을 식별 할 수있는 가능성으로 충분합니다.

예를 들어 개인 데이터는 다음과 같습니다.

  • 이름
  • 주소
  • 이메일 주소
  • 전화 번호
  • 생신

빅 데이터 주제와 관련하여 데이터 보호와 관련하여 일정한 긴장감이 있습니다. 이는 나중에 어떤 분석이 수행 될 것인지 사전에 명확하지 않은 채 데이터가 수집되고 저장되는 경우가 많기 때문입니다. 그러나 예를 들어 GDPR은 데이터 저장 및 분석에 특정 목적이 필요하다고 말합니다. 따라서 특정 목적을 여기서 증명하기가 특히 어렵습니다.

익명화 vs. 가명 화

데이터 익명화는 하나의 솔루션을 제공합니다. 데이터가 익명화되면 더 이상 개인 데이터가 아닙니다. 가명 화 된 데이터는 상황이 다릅니다. 적절한 추가 지식이 있으면 참조 사람을 결정할 수 있습니다.

익명화 대 가명 화 — 님의 사진 Author

기법

디렉토리 교체 는 값 사이에 링크가있는 동안 데이터를 수정하는 것을 의미합니다. 예를 들어 고객 번호를 사용하여 개인을 식별 할 수 있습니다 [2]. 이것은 가명 화의 예입니다.

스크램블링 — 한 가지 방법은 문자를 혼합하는 것입니다 [3]. 스크램블링 기술은 암호화와 해싱입니다.

마스킹 — 일부 정보는 임의의 문자 또는 ****를 사용하여 숨겨집니다.

스크램블링과 마스킹을 어떻게 구현하든 익명화 또는 가명 화로 볼 수 있습니다. 여기에서 누가 가명 화를 취소 할 수 있는지, 누가 취소 할 수 있는지에 따라 다릅니다.

요약

데이터 보호는 점점 더 중요한 문제가되고 있습니다. 회사는 끔찍한 벌금의 위험을 피하고 싶지만 모든 사람이 자신의 개인 정보를 책임감있게 처리하기를 원하기 때문에 우리 모두는 개인적으로 자신있게 개인 데이터를 처리해야합니다. 이를 위해이 기사에서 일반적인 기본 사항을 설명했습니다.

출처 및 추가 자료

[1] GDPR.EU, EU의 새로운 데이터 보호법 인 GDPR은 무엇입니까? (2021)

[2] 개인 데이터의 준수, 가명 화 및 익명화 (2020)

[3] Johner Institut, Anonymisierung und Pseudonymisierung (2020)

Suggested posts

TensorFlow 개발자 인증 시험 (2021)에 성공하는 방법

TensorFlow Developer 인증을 통과하기위한 리소스

TensorFlow 개발자 인증 시험 (2021)에 성공하는 방법

TensorFlow 개발자 인증은 TensorFlow 2.x를 사용하여 TensorFlow 개발자 기술, 신경망 구축 및 학습, 이미지 분류, 자연어 처리, 시계열, 시퀀스 및 예측에 대한 사용자 이해를 테스트합니다.

초보자를위한 Pandas — 데이터 프레임 재구성 — 2 부

긴 형식에서 넓은 형식으로 데이터 변환

초보자를위한 Pandas — 데이터 프레임 재구성 — 2 부

지난 튜토리얼에서 우리는 와이드 데이터 양식을 긴 양식으로 재구성하는 Pandas melt 함수를 시연했습니다. 이 튜토리얼은 반대 과정에 초점을 맞출 것입니다.