Anonymisation ou pseudonymisation ? Le Règlement Général sur la Protection des Données (RGPD) entrera en vigueur dans quelques mois, le 25 mai 2018. Avec la digitalisation et l’augmentation accrue du nombre de données, cette nouvelle réglementation européenne demande à toute entreprise manipulant des données personnelles et toute information permettant d’identifier une personne, de mettre en place les moyens techniques adéquats pour assurer la sécurité des données des citoyens européens.
Anonymisation ou pseudonymisation ? Deux grandes techniques très distinctes mises en avant dans la réglementation RGPD / RDPG mais qui sont pourtant souvent confondues dans le monde de la sécurité informatique : l’anonymisation des données et la pseudonymisation des données. Pour être conforme à la RGPD, il est important de pouvoir faire la différence, afin de s’assurer d’être bien préparé et de protéger correctement les données des citoyens.
Data anonymization (anonymisation) ou comment anonymiser l’information
La technique de l’anonymisation des données détruit toute possibilité de pouvoir identifier à quel individu appartiennent les données personnelles. Ce processus consiste à modifier le contenu ou la structure des données en question afin de rendre la « ré-identification » des personnes quasi impossible, même après traitement.
Cette méthode, intéressante au départ, reste pourtant difficile à mettre en œuvre dans la mesure où plus le volume de données croît, plus les risques de ré-identification par recoupement sont importants. En effet, des informations totalement anonymisées peuvent conduire à l’identification d’une personne en fonction du comportement relevé dans les informations, comme les habitudes de navigation sur internet, les historiques d’achats en ligne. Par exemple, si une entreprise garde les données de l’employée Sophie, même en les rendant anonymes (plus de nom, prénom, date de naissance et adresse), l’humain ayant des habitudes, il reste tout de même possible de déterminer un comportement spécifique : L’entreprise saura par exemple que Sophie se rend sur le même site d’information tous les matins, consulte ses mails quatre fois par jours et aime visiblement commander tous les jeudis son déjeuner au restaurant au coin de la rue. Au final, même anonymisées, les habitudes de comportement de Sophie permettent de la ré-identifier.
Or, la CNIL rappelle que « pour qu’une solution d’anonymisation soit efficace, elle doit empêcher toutes les parties d’isoler un individu dans un ensemble de données, de relier entre eux deux enregistrements dans un ensemble de données (ou dans deux ensembles de données séparés) et de déduire des informations de cet ensemble de données. »
Pour de nombreuses entreprises donc, l’anonymisation totale des données personnelles reste difficile à mettre en œuvre. Ces dernières se tournent alors vers une autre technique qui apparait comme un bon compromis : la pseudonymisation.
La pseudonymisation ou l’anonymisation des données
La réglementation RGPD introduit un nouveau concept de protection des données à échelle européenne, la pseudonymisation, un « entre deux » qui ne rend pas les données complètement anonymes ni complètement identifiables non plus. La pseudonymisation consiste à séparer les données de leurs propriétaires respectifs pour que tout lien avec une identité ne soit possible sans une information supplémentaire. En résumé, il s’agit d’une technique d’amélioration de la vie privée où les données d’identification directes sont conservées séparément et en toute sécurité à partir des données traitées, afin de garantir la non-attribution. Ainsi, dans le contexte de la pseudonymisation, les données ne sont pas complètement anonymes sans être identifiables pour autant.
L’unique point faible de la pseudonymisation est qu’elle génère une clé d’identification, une pièce maîtresse qui permet d’établir un lien entre les différentes informations des personnes. Pour assurer la sécurité des données, ces clés d’identification doivent être stockées avec un contrôle d’accès performant. En effet, une clé d’identification mal protégée permet à un attaquant de retrouver les informations originales avant que ces dernières ne soient traitées. L’utilisation du chiffrement des données sensibles fait partie des solutions robustes de protection des informations confidentielles en matière de pseudonymisation. Et il est du devoir de l’entreprise de mettre en place les solutions de sécurité adéquates et raisonnables permettant de limiter les risques de vols de ces précieuses clés par des personnes mal attentionnées.
Les entreprises ont le choix entre les techniques d’anonymisation et de pseudonymisation des données personnelles pour être conformes au RGPD. Leur choix dépendra de leurs besoins mais aussi de la nature des informations collectées. Si l’anonymisation est une technique qui peut être difficile à mettre en place, la pseudonymisation permet de simplifier le processus de protection des données personnelles tout en restant conformes à la nouvelle réglementation européenne. (Jan Smets, pre-sales manager chez Gemaltode)