Warum die DSGVO die Pseudonymisierung der Anonymisierung vorzieht

Inhalt
Auge mit Fingerabdruck
Favorisiert von der DSGVO: die Pseudonymisierung

Sich auf die Anonymisierung zu verlassen, ist fast unmöglich. Die Nichteinhaltung der DSGVO-Anonymisierungsanforderungen setzt Datenverarbeiter und -kontrolleure großen Risiken im Rahmen der DSGVO aus. Dabei gibt es eine weitaus bessere Alternative: Pseudonymisierung. Dieser Artikel erklärt, warum die Pseudonymisierung effektiver ist als die Anonymisierung, um das in der DSGVO geforderte hohe Schutzniveau für personenbezogene Daten zu gewährleisten.Von Gerry Rankin, Anonos

Hinweis: Dies ist einer von drei Artikeln über Pseudonymisierung und die DSGVO. Siehe auch Anonymisierung funktioniert bei Big Data nicht und DSGVO-Pseudonymisierung erfordert mehr Dynamik.

Im Vorwort der DSGVO heißt es:

Die Verarbeitung personenbezogener Daten sollte dem Menschen dienen. Das Recht auf Schutz personenbezogener Daten ist kein absolutes Recht; es muss in Bezug auf seine Funktion in der Gesellschaft betrachtet und im Einklang mit dem Grundsatz der Verhältnismäßigkeit gegen andere Grundrechte abgewogen werden.
Die Technologie hat sowohl die Wirtschaft als auch das soziale Leben verändert und sollte den freien Verkehr personenbezogener Daten innerhalb der Union und die Übermittlung an Drittländer und internationale Organisationen weiter erleichtern und gleichzeitig ein hohes Schutzniveau für personenbezogene Daten gewährleisten.

Während die Pseudonymisierung in der DSGVO mehr als zehnmal neu definiert und zitiert wurde, wird die Anonymisierung im Regelwerk nur einmal zitiert. Wir verwenden bewusst die anglisierte Schreibweise der “Pseudonymisierung”, um anzuerkennen, dass Artikel 4(5) der DSGVO neue gesetzliche Definitionsvorschriften für den Begriff enthält, wie sie erstmals im Rahmen der DSGVO formuliert wurden, und um diese präzisere Definition von anderen informellen Definitionen zu unterscheiden.

Wir verwenden in der englischen Version die anglisierte Schreibweise von “Anonymisierung”, um auf diesen Begriff zu verweisen, wie er im EU-Datenschutzrecht allgemein definiert ist, und nicht auf das allgemeinere Konzept, die unmittelbare Identifizierbarkeit einer Person lediglich zu reduzieren (wie es bei anderen Rechtsordnungen oft der Fall ist und oft mit der Variante “z”-Schreibweise “Anonymization” verbunden ist).

Während pseudonymisierte Daten weiterhin in der Zuständigkeit der DSGVO liegen, können Unternehmen, die sie verwenden, auf zahlreiche ausdrückliche gesetzliche Vorteile zurückgreifen, die eine größere Datennutzung und Innovation ermöglichen. Im Gegensatz dazu sind anonymisierte Daten von der Zuständigkeit der DSGVO ausgenommen, aber die Unmöglichkeit, alle Anforderungen für ausreichend anonymisierte Daten (wie von Experten nachgewiesen und in diesem Artikel beschrieben) zu erfüllen, bedeutet, dass das Verlassen auf die Anonymisierung die Datenverarbeiter und -kontrolleure großen Risiken im Rahmen der DSGVO aussetzt, insbesondere: Geldbußen, Vollstreckungsmaßnahmen, Unsicherheit und Störung des Geschäftsbetriebs.

Das bisherige “Release-and-Forget”-Modell, das traditionelle Ansätze zur fiktiven “Anonymisierung” untermauert hat, ist in einer Big Data-Welt, in der die Anonymisierung der neue Standard ist, nicht mehr tragfähig. Um die Rentabilität wiederherzustellen, müssen Unternehmen die Ziele der DSGVO-Präambel durch die Einführung eines Pseudonymisierungs-aktivierten “protect-and-release-and-control”-Modells verwirklichen.

Vier Möglichkeiten zur Charakterisierung von Daten

  • Bei der Datensicherheit geht es um den Schutz von Daten, indem sichergestellt wird, dass nur autorisierte Personen auf die Daten zugreifen können.
  • Beim Datenschutz geht es darum, zu verhindern, dass die Identität einer Person entdeckt wird, auch von jemandem, der legitimen Zugang zu den Daten hat – es sei denn, die Weitergabe wurde ausdrücklich genehmigt.
  • Beim Datenaustausch geht es darum, zu erkennen, dass Daten für verschiedene Zwecke, vom Marketing bis zur wissenschaftlichen Forschung, von großem Wert sein können. Aber wer hat das Recht, sie zu teilen, mit wem, unter welchen Bedingungen und zu welchem Zweck? Können wir Daten auf eine datenschutzgerechte Weise weitergeben, bei der die Identität des Einzelnen nicht nur geheim, sondern grundsätzlich unentdeckt bleibt, während Dritte von den zugrunde liegenden Daten profitieren können?
  • Beim Datenwert geht es darum zu erkennen, dass bei perfekter Sicherheit und Privatsphäre niemand sonst die Daten verwenden kann, auch nicht für die besten Absichten. Daher haben die Daten keinen Wert, der über den Zweck hinausgeht, für den sie ursprünglich erhoben und verwendet wurden. Alternativ kann man die Sicherheits- und Datenschutzbeschränkungen aufheben und diesen Wert wiederherstellen. Was bleibt, ist die Milliardenfrage: Gibt es Techniken, die den Datenschutz maximal schützen und die Datensicherheit gewährleisten, aber durch die Möglichkeit des Datenaustauschs einen maximalen Wert schaffen können?

Datenzustände: Ungeschützt, anonymisiert, pseudonymisiert

Im Lichte dieser Definitionen betrachten wir drei Zustände, die den Datenschutz für Datensätze mit personenbezogenen Daten charakterisieren, und zusätzlich die technischen Kontrollen, die zur Realisierung dieser Zustände erforderlich sind:

Personenbezogene Daten in einem ungeschützten Zustand

Wenn personenbezogene Daten in ihrer ursprünglichen Klartextform zugänglich sind, sind sie ungeschützt. Es gibt weder Datensicherheit noch Datenschutz. Im Gegensatz dazu gibt es theoretisch keine Einschränkungen des Datenwertes, aber der fehlende Datenschutz macht personenbezogene Daten von einem Vermögenswert zu einer Verbindlichkeit.

  • Technische Kontrollen erforderlich: Keine.
  • Praktischer Wert in der heutigen Datenschutz-respektierenden Welt der DSGVO: Fast keiner.

1. Personenbezogene Daten, die in einen anonymisierten Zustand umgewandelt wurden

Wenn Daten anonymisiert wurden, beschreibt dies einen Zustand von Daten, in dem sie transformiert, verschleiert, ersetzt und/oder unterdrückt wurden, so dass die Identität einer betroffenen Person nicht festgestellt werden kann, selbst wenn zu diesem Zweck alle möglichen Mittel zur Neuidentifizierung eingesetzt wurden, unabhängig davon, ob diese Bemühungen gut gemeint oder böswillig sind. Dies beschreibt die Datensicherheit, die einen vollständigen Datenschutz gewährleistet. Der Datenaustausch erfolgt jedoch nur in Form von aggregierten Statistiken, wodurch der Datenwert erheblich verringert wird.

  • Technische Kontrollen erforderlich: Sie müssen verhindern, dass niemand Personen im Datensatz erneut identifizieren kann. Mit anderen Worten, eine erneute Identifizierung darf buchstäblich nicht möglich sein, sei es durch den Ersteller eines Datensatzes, einen Empfänger oder einen bösartigen Akteur.
  • Praktischer Wert in der heutigen Datenschutz-respektierenden Welt der DSGVO: Teilweise. Bietet Datenschutz, aber der Datenwert wird erheblich verringert, da die Aggressivität der Datentransformation, die notwendig ist, um eine erneute Identifizierung zu verhindern, den Datenschutz und den Datenwert in einem Nullsummenspiel konkurriert.

2. Personenbezogene Daten, die in einen pseudonymisierten Zustand umgewandelt wurden

Wenn Daten pseudonymisiert wurden, beschreibt dies einen Zustand von Daten, in dem sie transformiert, verschleiert, ersetzt und/oder unterdrückt wurden, so dass die Identität einer natürlichen Person [der betroffenen Person] nicht bestimmt werden kann, außer durch die Verwendung getrennter Informationen, die organisatorischen Kontrollen unterliegen, die die Verwendung der Informationen auf befugte Personen für autorisierte Zwecke beschränken, selbst wenn alle wahrscheinlichen Mittel zur erneuten Identifizierung zu diesem Zweck verwendet wurden, unabhängig davon, ob diese Bemühungen gut gemeint oder böswillig sind.

Dies beschreibt die Datensicherheit, die zu einem kontrollierten Datenschutz führt. Es ermöglicht zudem die gemeinsame Nutzung von Daten auf Datensatzebene und maximiert so den Datenwert. Beachten Sie, dass nur ein einziger Zusatz (fett markiert) die Definition von pseudonymisiert von anonymisiert unterscheidet.

  • Technische Kontrollen erforderlich: Wer versucht, den Datenschutz zu gefährden, verwendet drei wichtige Angriffsvektoren: (1) Herausgreifen; (2) Verknüpfen; und (3) Inferenz. Sie müssen Kontrollen aktivieren, die alle drei beseitigen.
  • Praktischer Wert in der heutigen Datenschutz-respektierenden Welt der DSGVO: Hoch. Nur so können Daten „dem Menschen dienen“ und gleichzeitig ein hohes Maß an Schutz personenbezogener Daten gewährleistet werden.

3. Definition der drei Angriffsvektoren zur erneuten Identifizierung

Experten klassifizieren Techniken zur Neuidentifizierung von Betroffenen in datenschutzgeschützten Datensätzen in drei Kategorien:

Durch Herausgreifen wird versucht, eine betroffene Person erneut zu identifizieren, indem ein oder mehrere einzelne Datensatzdatensätze isoliert werden, die sich auf eine einzelne Person beziehen. Typischerweise geht es dabei entweder um die Suche nach direkten Identifikatoren, die nicht eliminiert, sondern durch ein statisches (oder persistentes) Token ersetzt wurden, das für die jeweilige Person eindeutig ist, oder um Kombinationen von indirekten Identifikatorwerten, die nur einmal im Datensatz vorkommen.

Die Verknüpfung erfordert, dass sich mindestens zwei Datensätze auf dieselbe betroffene Person oder eine Gruppe von Personen beziehen (entweder innerhalb der Datensätze, im gleichen Datensatz oder zwischen den Datensätzen – bei mindestens zwei verschiedenen Datensätzen). Wenn ein direkter Identifikator oder eine Kombination von indirekten Identifikatoren für eine Person innerhalb oder zwischen Datensätzen erneut auftritt, kann ein Angreifer daraus schließen, dass Datensätze, die anscheinend zu verschiedenen Personen gehören, sich tatsächlich auf dieselbe Person beziehen. Angriffe, die Daten aus zwei oder mehr Datensätzen zusammensetzen, nutzen ein Phänomen namens “Mosaik-Effekt” aus.

Inferenz beinhaltet die Feststellung einer hohen Wahrscheinlichkeit, dass der Wert eines Attributs es ermöglicht, auf die Werte einer Reihe anderer Attribute in diesem Dataset zu schließen. Als einfaches Beispiel betrachten Sie einen Datensatz, der (neben anderen Attributen), (i) das Alter und (ii) einen Indikator dafür enthält, ob jede Person Privatinsolvenz beantragt hat. Wenn für einen bestimmten Alterswert jeder im Datensatz Insolvenz angemeldet hat, dann kann ein Angreifer, der weiß, dass sich eine bestimmte Person im Datensatz befindet, sowohl deren Alter ableiten, als auch wissen, dass die Person Insolvenz angemeldet hat, ohne genau zu wissen, welcher genaue Datensatz sich auf diese Person bezieht.

4. Wie effektiv erreichen allgemeine Techniken zur Verbesserung der Privatsphäre eine Anonymisierung oder Pseudonymisierung?

Um entweder Anonymisierung oder Pseudonymisierung zu erreichen, muss ein Datensatz so transformiert werden, dass alle drei Arten von Angriffen gleichzeitig besiegt werden (im Fall von Anonymisierung) oder effektiv verwaltet werden (im Fall von Pseudonymisierung): Herausgreifen, Verknüpfen und Interferenz.

Betrachten wir nun die Wirksamkeit gängiger Privacy Enhancing Techniques (PETs) wie Verschlüsselung, homomorphe Verschlüsselung, Randomisierung, differentielle Privatsphäre, synthetische Daten und statische Tokenisierung gegen diese Angriffe.

  • Verschlüsselung: Die Verschlüsselung, die vielleicht am weitesten verbreitete PET zum Schutz von Daten im Ruhezustand und während der Übertragung, bietet leider keinen Schutz für die verwendeten Daten, da die Daten zuerst entschlüsselt werden müssen, um verwendet zu werden. (Beachten Sie, dass die Verschlüsselung auf Datenelementebene wahrscheinlich besser als eine Form der statischen Tokenisierung klassifiziert wird, eine PET, die im Folgenden erläutert wird.)
  • Homomorphe Verschlüsselung: Diese PET versucht, die Unfähigkeit der Verschlüsselung zum Schutz der verwendeten Daten zu überwinden. Dazu werden Berechnungen für verschlüsselte Daten aktiviert. Somit kann die analysierende Instanz die betroffene Person nie wieder identifizieren, da diese Instanz nie über die Entschlüsselungsschlüssel verfügt. Zu den Problemen mit dieser Technik gehören: Nicht alle mathematischen Operationen werden unterstützt; sie ist extrem langsam und rechenintensiv; und, wenig überraschend, keine kommerziell nutzbare Software hat sie bisher erfolgreich implementiert.
  • Randomisierung, einschließlich „Noise Injection“, Perturbation und Permutation: Das bedeutet, bestehende Datensätze zu übernehmen und entweder neue “zufällige” Datensätze hinzuzufügen oder die Werte bestehender Datenelemente zu ändern (sie durch Hinzufügen von Geräuschen zu „stören“). Im Gegensatz dazu werden bei der Permutation (im Gegensatz zur Perturbation) Daten zwischen Datensätzen innerhalb von Attributen gemischt. Durch die Einführung von Unsicherheit (sowohl Falsch Positiv als auch Falsch Negativ) bietet eine solche Randomisierung nur einen gewissen Schutz vor allen drei Arten von Angriffen, aber sie besiegt sie nicht. Die Randomisierung reduziert den Datenverbrauch auf zwei Arten. Erstens schwächt es die Korrelationen zwischen den Attributen (Perturbation hingegen beseitigt solche Korrelationen). Zweitens reduzieren Geräuschzuführung und Perturbation die Genauigkeit der für einzelne Attribute berechneten Statistiken.
  • Differentielle Privatsphäre: Die Implementierung ist zwar technisch recht kompliziert, die Grundidee besteht jedoch darin, Geräusche hinzuzufügen, die helfen, eine erneute Identifizierung bei einer Datenabfrage zu verhindern. Der erforderliche Geräuschpegel hängt von den Eigenschaften des (i) Datensatzes, (ii) der Stärke der gewünschten Datenschutzgarantie und (iii) den Informationen ab, die bereits in früheren Abfragen ermittelt wurden. Wie andere Randomisierungstechniken bietet auch die differentielle Privatsphäre einen gewissen Schutz vor allen drei Arten von Angriffen durch die Einführung von Unsicherheit (sowohl Falsch Positiv als auch Falsch Negativ). Sie weist jedoch erhebliche Schwächen auf, da die zum Erreichen der Privatsphäre erforderliche Geräuschmenge die Genauigkeit verringert und im Allgemeinen die Lieferung von Daten auf Datensatzebene verhindert, wodurch die Ausgaben auf zusammenfassende Statistiken beschränkt werden. Darüber hinaus können die Ergebnisse einer Reihe aufeinanderfolgender Abfragen kombiniert werden, um eine einzelne Person erneut zu identifizieren. Schließlich verbraucht jede ausgelieferte Abfrage einen Teil des “Datenschutzbudgets” des Datensatzes. Nach einer begrenzten (und häufig geringen) Anzahl von Abfragen kann der betreffende Datensatz nicht mehr verwendet werden.
    Synthetische Daten: Dies bedeutet, dass die tatsächlichen Daten durch einen statistisch “ähnlichen” Datensatz ersetzt werden. Da die Daten nicht echt sind, sondern den statistischen Verteilungen entsprechen, die für die zugrunde liegenden ursprünglichen – aber nicht mehr verfügbaren – Daten zutreffen, können bestimmte Erkenntnisse gewonnen werden, wodurch ein Teil des Datenwerts erhalten bleibt (der Erhaltungsgrad hängt von der Genauigkeit des synthetisierten Modells ab). Selbst wenn der Wert beträchtlich ist, wird die Verknüpfbarkeit unterbrochen, da die verwendeten Daten in der realen Welt nicht existieren, und daher das scheinbare Paradoxon vorliegt, dass eine erneute Identifizierung nicht durch Verknüpfbarkeit möglich ist. Es ist aber dennoch möglich ist, weil eine reale Person den statistischen Eigenschaften des Datensatzes entsprechen kann, was eine mögliche Neuidentifizierung ermöglicht. Darüber hinaus sind synthetische Daten auch anfällig für Inferenzangriffe.
  • K-Anonymität, einschließlich Generalisierung, Aggregation und Unterdrückung: Der Zweck jeder dieser Techniken ist es, das Herausgreifen zu besiegen. Richtig gemacht, sind sie dabei sehr effektiv. K-Anonymität verwendet eine Kombination aus Aggregation (Verallgemeinerung von Attributwerten in Mittelwerte oder Bereiche) und Unterdrückung (Weglassen von Datensätzen aus der Ausgabe), so dass für alle Kombinationen bestimmter Werte einer bestimmten Gruppen von Attributen in den resultierenden Daten mindestens k-Personen in jeder resultierenden Untergruppe existieren. Das resultierende Risiko einer erneuten Identifizierung (durch Herausgreifen) ist dann mathematisch nicht größer als der Quotient 1/k. K-Anonymität bietet zwar einen gewissen Schutz vor Verknüpfbarkeit auf der Ebene einzelner Datensätze, ermöglicht jedoch weiterhin das Verknüpfen von Datensatzgruppen zwischen Datensätzen. Durch die Vielzahl leicht erhältlicher Datensätze, von denen jeder Dutzende indirekte Identifikatoren enthalten kann, wird eine spätere erneute Identifizierung ermöglicht, indem mehrere Datensätze nacheinander über den Mosaik-Effekt kombiniert werden. Schlimmer noch, K-Anonymität kann nicht vor Inferenzangriffen schützen. Zwei Erweiterungen der k-Anonymität wurden l-Diversität und t-Geschlossenheit entwickelt, um diese Anfälligkeit für Inferenzangriffe zu beseitigen. Diese beiden Erweiterungen arbeiten, indem sie Geräuschzuführungs- und Störungstechniken nehmen, um sicherzustellen, dass innerhalb von Attributen, die zum Definieren der zur Messung der k-Anonymität verwendeten Untergruppen verwendet werden, mindestens l verschiedene Werte in der ersteren vorhanden sind, und in der letzteren ist jeder der l-Werte so oft vorhanden (also die Verwendung von t), wie nötig, um sicherzustellen, dass die Verteilung der Werte ähnlich ist wie in den ursprünglichen Daten. Obwohl diese Erweiterungen Inferenzangriffe auf Kosten der Genauigkeit abwehren, sind sie genauso anfällig für Verknüpfungsangriffe wie grundlegende k-Anonymität-Angriffe.
  • Statische Tokenisierung: Diese PET erzeugt Token, so dass für einen beliebigen Wert eines direkten Identifikators das erstellte Token immer identisch ist, unabhängig davon, wie oft ein Token durch einen direkten Identifikator ersetzt wird. Dadurch wird die Verknüpfbarkeit zwischen Datensätzen, die diese Token in einem einzelnen Datensatz oder zwischen mehreren Datensätzen gemeinsam nutzen, unbedeutend.

5. Optionen zur Erfüllung der Anonymisierungs- und Pseudonymisierungs Anforderungen

Zusammenfassend nach Angriffsvektor haben wir folgende Möglichkeiten:

  • Um Angriffe durch Herausgreifen abzuwehren, ist die Hauptoption k-Anonymität. Sie berücksichtigt jedoch nicht Verknüpfbarkeits- und Inferenzangriffen. Erweiterungen wie l-Diversität und t-Geschlossenheit zielen auf Inferenzangriffen ab, verringern jedoch nicht die Verknüpfbarkeit.
  • Zur Abwehr von Verknüpfungsangriffen scheinen synthetische Daten die einzige Option zu sein. Sie sind jedoch weiterhin anfällig für Herausgreifen, Inferenzangriffe und indirekte Neuidentifizierung.
  • Um Inferenzangriffe abzuwehren, sind nur l-Diversität und t-Geschlossenheit effektiv, aber anfällig für Verknüpfbarkeit.

Schlussfolgerungen

1. Anonymisierung

Keine Technik kann die hohen Anforderungen an die Anonymisierung eines Datensatzes sicher erfüllen. Aber können Kombinationen von Techniken dies effektiv tun? Zum Beispiel die Kombination synthetischer Daten mit l-Diversität und t-Geschlossenheit. Während diese Kombination theoretisch vielversprechend ist, Angriffe über alle drei Vektoren hinweg zu verhindern, sind in Wirklichkeit mindestens zwei wesentliche Schwächen erkennbar. Erstens steht jeder Ansatz im Widerspruch zueinander: Synthetische Daten versuchen, statistische Beziehungen zu erhalten, während die l-Diversität und t-Geschlossenheit sie schwächen. Dies erklärt auch die zweite Schwäche: Es gibt keine kommerzielle Umsetzung dieses Ansatzes.

Leider existiert keine andere Kombination von PETs, die alle drei Angriffsvektoren blockieren kann. Infolgedessen erscheint die Anonymisierung theoretisch zwar als ein Mittel zum Schutz der Privatsphäre und zur Ermöglichung der Verarbeitung personenbezogener Daten ohne DSGVO-Beschränkungen attraktiv, in der Praxis ist sie jedoch nicht möglich.

2. Pseudonymisierung

Es gibt jedoch einen kombinierten Ansatz, der nicht nur alle drei Angriffsvektoren besiegt, sondern auch ein kontrolliertes erneutes Verknüpfen ermöglicht und damit die von der DSGVO definierten Anforderungen für die Pseudonymisierung erfüllt. Für diesen Ansatz müssen wir die Beschränkung der statischen Tokenisierung ändern und darüber hinaus einige Sicherheitstechniken übernehmen. Es funktioniert auf dreifache Weise durch:

  • Die Verwendung von k-Anonymität, um das Herausgreifen abzuwehren, plus
  • die Änderung von statischen Token in dynamische Token, die nicht von den zugrunde liegenden Datenwerten abgeleitet sind (z.B. nicht-kryptographisch) und die nicht nur auf direkte Identifikatoren, sondern auch auf indirekte Identifikatoren angewendet werden, um Verknüpfungsangriffe zu verhindern, plus
  • die Verwendung von K-Anonymität, die durch das Hashing indirekter (aber nicht direkter) Identifikatoren und anderen Datenattributen verbessert wurde, um statische Token innerhalb von Datensätzen und dynamische Token zwischen ihnen bereitzustellen, um Inferenzangriffe zu verhindern.

Dieser neuartige Ansatz nutzt eine einzigartige Kombination aus bestehenden und neu entwickelten Techniken, um alle drei Angriffsvektoren der erneuten Identifizierung zu besiegen. Indem wir Nachschlagetabellen von Tokens aufbewahren, die zusätzliche Informationen darstellen, die separat aufbewahrt werden, können wir Daten effektiv pseudonymisieren: wir schützen die Privatsphäre und bewahren die Neuidentifizierung, die nur unter kontrollierten Bedingungen über diese separat aufbewahrten zusätzlichen Informationen zulässig ist.

Dieser neue Ansatz zur Durchführung einer DSGVO-konformen Pseudonymisierung

  • ermöglicht es Daten, den Vorgaben der DSGVO zu entsprechen, um der Menschheit besser dienen zu können, indem ein hohes Maß an Schutz personenbezogener Daten gewährleistet wird und
  • bietet ausdrückliche gesetzliche Vorteile im Rahmen der DSGVO, die eine stärkere Datennutzung und Innovation ermöglichen.

Gerry Rankin ist Global Head of Privacy Risk Management bei Anonos und Spezialist für Pseudonymisierung und Anonymisierung im Rahmen der DSGVO.

Diese Artikel könnten Sie auch interessieren: