Schlagwort-Archive: anonym

Lesetipp: Narayanan/Felten, No silver bullet: De-identification still doesn’t work – zur Frage der effektiven Anonymisierung von Daten

Im Juli 2014 haben Arvind Narayanan (@random_walker) und Edward Felten (@EdFelten) (beide Princeton University) ein Paper mit dem Titel „No silver bullet: De-identification still doesn’t work“ veröffentlicht, das im Wesentlichen eine Replik auf ein Paper von Cavoukian/Castro (Big Data and Innovation, Setting the Record Straight: Deidentification Does Work) darstellt. Cavoukian und Castro hatten in ihrem Paper im Kern dargestellt, dass es wirksame Techniken gibt, die eine Anonymisierung von Datensätzen ermöglichen. Narayanan und Felten wenden sich sehr überzeugend gegen diese Theorie.

1. Hintergrund

Zunächst kurz zum Hintergrund:

Wir befinden uns vermutlich noch am Anfang des Big Data-Zeitalters. Über jede einzelne Person werden immer mehr und immer genauere Daten erhoben und gespeichert (näher z.B. Kurz/Rieger, Die Datenfresser, 2012). Wer sich die Daten von/über Malte Spitz ansieht, die im Zuge der Kritik an der (deutschen und europäischen) Vorratsdatenspeicherung erhoben wurden, erhält eine leichte Idee davon. Man stelle sich zusätzlich vor, dass auch alle anderen Tätigkeiten von uns digital erfasst werden. Wenn sich alle diese Daten zusammenführen ließen und dann auch noch jeweils einer einzelnen Person zugeordnet werden kann, entsteht ein sehr genaues Bild über diese eine Person. Diesen Zustand soll unser Datenschutzrecht verhindern bzw. die Kontrolle über den Vorgang zumindest teilweise der jeweiligen Person erhalten.

Sollen nun Daten ohne konkrete Einwilligung oder gesetzlichen Erlaubnistatbestand erhoben und genutzt werden, bleibt dem Verarbeitungswilligen nur die Variante, die Daten dem Schutz des Datenschutzrechts vollständig zu entziehen. Das ist – möchte man meinen – eigentlich ganz einfach: Die Daten müssen ja „einfach nur“ anonymisiert werden. Wie das geht, sagt uns (in der Theorie) z.B. § 3 Abs. 6 BDSG:

Anonymisieren ist das Verändern personenbezogener Daten derart, dass die Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können.

Es gibt eine Menge Literatur dazu (s. nur Simitis-Scholz, BDSG, 8. Aufl. 2014, § 3 Rn. 205 ff.), wie § 3 Abs. 6 BDSG zu verstehen ist. In dieser wird u.a. darauf hingewiesen, dass man klar zwischen Anonymisierung und Pseudonymisierung unterscheiden muss. Und Daten, die – wie es hier Narayanan und Felten darstellen de-anonymisiert werden können, sind schlicht nur pseudonymisierte und damit personenbezogene Daten.

2. Broken Promises of Privacy

Im Jahr 2009 hat Paul Ohm (@paulohm) in einem denkwürdigen Aufsatz namens „Broken promises of privacy: Responding to the surprising failure of anonymization” dargestellt, dass sich (eigentlich anonymisierte) Daten immer häufiger “de-anonymisieren” lassen – und zwar ohne so erheblichen Aufwand, dass von einer effektiven Anonymisierung nach § 3 Abs. 6 BDSG gesprochen werden kann. Die Frage und Möglichkeit der De-Anonymisierung ist daher eine tatsächliche Frage, die unmittelbar erhebliche rechtliche Konsequenzen nach sich zieht.

Vermutlich weil ein großes Interesse daran besteht, mit solche „anonymisierten“ Daten weiter zu arbeiten, gibt es auch Stimmen, die die Effektivität der Anonymisierung bzw. die Ineffektivität von Angriffen hiergegen hervorheben – wie z.B. den von Narayanan und Felten kritisierten Aufsatz von Cavoukian und Castro.

Narayanan und Felten zeigen in ihrem Aufsatz nun eindrucksvoll auf, dass die Ergebnisse von Cavoukian und Castro nicht nur auf Sand gebaut, sondern vermutlich einfach schlicht falsch sind. Hier nur ein paar Zitate aus dem Paper:

Let’s be clear about why the authors of the study didn’t actually re-identify anyone: because they didn’t set out to. …

The [Netflix]-study shows in detail that if someone knows just a little bit about the movie preferences of a user in the Netflix dataset (say, from Facebook or a water-cooler conversation), there’s an upwards of 80% chance of identifying that user’s record in the dataset. …

They mostly ignore the possibility of re-identification by a spouse, friend, nosey neighbor, or investigator based on specific knowledge about the victim, as well as a data-broker applying re-identification based on their existing datasets to enrich their dossiers …

The authors claim that data brokers’ databases “are often incomplete, making it difficult to positively identify someone with a high degree of confidence.” This is cold comfort to a person who is re-identified because they do appear in the database. And it doesn’t consider that a realistic adversary often can just buy access to another database if the first one doesn’t meet their needs. …

It is very tempting to look for an assurance that (say) only 1% of individuals in a dataset can be re-identified. But there is simply no scientific basis for interpreting re-identification probabilities of de-identified high-dimensional datasets as anything more than (weak) lower bounds, and we urge the reader to be wary of false promises of security.

Was kann man also Personen und Unternehmen, die große Datenmengen erheben, nutzen und weitergeben möchten, raten? Die einzig (noch?) effektive Methode scheint eine Aggregation von Daten: Wenn Daten so zusammengewürfelt werden, dass sie immer eine Gruppe von Personen betreffen, entzieht sie des Personenbezugs. Allerdings darf die Gruppe nicht zu klein geraten – und dadurch wird natürlich die Nützlichkeit der Daten stark eingeschränkt (s. näher zu Anonymisierungstechniken Simitis-Scholz, BDSG, 8. Aufl. 2014, § 3 Rn. 205 ff.). Sehr interessant fand ich in diesem Zusammenhang, dass Narayanan und Felten auch zeigen, dass die Technik , die bisher als halbwegs effektiv angesehen wurde, nämlich die Veränderung von Daten, so dass sie ungenauer werden (z.B. statt eines Datums nur das Jahr) angesichts der zunehmenden Datenmengen von Angreifern ebenfalls versagt.

Indeed, a key finding of the de Montjoye et al. study is that the main technique one might hope to use — making the data more coarse-grained — has only a minimal impact on uniqueness. …

making the adversary’s auxiliary dataset more specific has the equal and opposite impact! Of course, with high-dimensional datasets, there are strong limits to how much the data can be generalized without destroying utility, whereas auxiliary information has the tendency to get more specific, accurate, and complete with each passing year.

Wer sich mit Anonymisierungstechniken beschäftigt und selbst Daten anonymisieren möchte, oder mit anonymisierten Daten arbeiten will (oder jemanden berät, der das tut), sollte sich im Übrigen darüber klar sein, dass es (rechtlich) völlig unbeachtlich ist, ob sich nur ein kleiner Teil der Daten einer bestimmten Person zuordnen lässt. Denn für jeden einzelnen dieser Fälle liegt aller Voraussicht nach eine unzulässige Datenverarbeitung vor. Dementsprechend kann man eigentlich nur empfehlen, „anonymisierte“ Daten, bei denen man nicht ganz und absolut sicher ist, ob sie wirklich anonym sind, als personenbezogene Daten zu behandeln.

3. Fazit

Obwohl der Aufsatz von Narayanan und Felten nur eine „Replik“ darstellt, ist er absolut lesenswert. Er enthält zudem eine Reihe von weiterführenden Links und Hinweisen. Es empfieht sich auch, das Paper von Cavoukian und Castro zu lesen. Im Übrigen hat auch Cory Doctorow die Diskussion zusammengefasst.
(Bild: Chris HartmanCC BY 2.0)

 

Aufsatz „Verwertung von Standortdaten und Bewegungsprofilen durch Telekommunikationsdiensteanbieter – Der Fall Telefónica/O2“, K&R 2013, 7, erschienen

In eigener Sache:

Mein Aufsatz mit dem Titel „Verwertung von Standortdaten und Bewegungsprofilen durch Telekommunikationsdiensteanbieter – Der Fall Telefónica/O2“ ist mittlerweile in der Zeitschrift Kommunikation & Recht (K&R), Heft 1/2013, S. 7 ff., erschienen.

Der Aufsatz beschäftigt sich mit der Absicht von Telefonica/O2, Standortdaten und Bewegungsprofile seiner Kunden zu verkaufen, ich hatte am 30.10.2012 bereits eine kurze Bewertung abgegeben.

Die Aus- und Verwertung von vorhandenen Datenbeständen wird auch in der Zukunft weiter aktuelles Thema bleiben. Dies zeigt nicht zuletzt der vor einigen Tagen erschienen Artikel von Fischermann und Hamann mit dem Titel „Wer hebt das Datengold?“. Der nun in der K&R erschienene Aufsatz behandelt die Problematik speziell im Hinblick auf die Verwertung von Daten durch Telekommunikationsdiensteanbieter, die bereits durch die reine Diensterbringung die Möglichkeit haben, relevante und sensitive Datensammlungen über ihre Kunden anzulegen (und dies wie das Beispiels Telefonica/O2 zeigt offenbar wenigstens teilweise auch tun).

Dabei gehe ich in dem Aufsatz insbesondere auf den Telekommunikationsdatenschutz der §§ 91 ff. TKG und den allgemeinen Datenschutz des BDSG, aber auch die Verletzung des Fernmeldegeheimnisses nach § 206 StGB ein.

Siehe auch:

Telefonica will Standortdaten seiner Kunden verkaufen – Eine kurze Bewertung

Wie heute berichtet wird, plant Telefonica (u.a. O2), die Standortdaten seiner Kunden als Produkt namens „Smart Steps“ in Form von Bewegungsprofilen an gewerbliche Kunden zu verkaufen.

Die Tagesschau erläutert dazu:

Durch ihre Bewegungsdaten erfährt der Geschäftsbesitzer von Telefónica nicht nur, dass Sie vor seinem Schaufenster stehen geblieben sind. Er erfährt auch, aus welcher Richtung Sie kamen, wie lang Sie stehen geblieben sind, wie alt Sie sind und welchem Geschlecht Sie angehören. Wertvolle Informationen – die, so Telefónica, allerdings anonymisiert werden.

Wann der Dienst in Deutschland starten soll, ist noch unklar. Allerdings kündigt Telefonica/O2 bereits jetzt an, auch die deutschen Datenschutzbestimmungen einhalten zu wollen. Möglich machen soll es eine Anonymisierung plus Einwilligung des Kunden. In den AGB soll zudem eine entsprechende Einwilligungserklärung vorhanden sein.

Ich bin gespannt, wie Telefonica/O2 diese Ankündigungen möglich machen will. Denn datenschutzrechtlich bewegt sich der Konzern auf sehr unsicherem Grund. Insbesondere sieht § 98 TKG einen sehr speziellen und weitgehenden Schutz von Standortdaten vor, um den Telefonica nur schwerlich herumkommen wird.

Anonymisierung

Schon die behauptete Anonymisierung ist kaum das Allheilmittel, das Telefonica sich davon erhofft. Denn nach den derzeitigen Produktbeschreibungen ordnet Telefonica die Standortdaten eindeutig einer Person zu. Wenn Telefonica behauptet, die Daten seien anonymisiert, dann ist wohl gemeint, dass derjenige, der die Daten kauft, nicht den Namen des Kunden erfährt. Das soll eine Anonymisierung darstellen. Dazu sind zwei Dinge zu beachten:

1. Rechtswidrige Erhebung der Daten bei Telefonica

Um ein Bewegungsprofil zu erhalten, müssen die Daten bei Telefonica selbst nicht-anonymisiert vorliegen. Wenn die Daten anonymisiert wären, könnte Telefonica ab dem Zeitpunkt der Anonymisierung das Bewegungsprofil nicht mehr fortführen. Damit dürfte die Behauptung widerlegt sein, dass die Daten (bei Telefonica/O2) überhaupt anonymisiert werden.

Für diese Erhebung und das Anlegen eines Bewegungsprofils benötigt Telefonica nach § 4a Abs. 1 BDSG eine Rechtfertigung. Diese kann praktisch nur in einer Einwilligung liegen. Es dürfte kaum möglich sein, dass Telefonica eine solche Einwilligung vom Kunden in der erforderlichen Form (insb. klar, verständlich, deutlich hervorgehoben (nicht versteckt in AGB) und ohne Verstoß gegen das Kopplungsverbot) einholen können wird. Auch Thilo Weichert vom Unabhängigen Landesdatenschutzzentrum Schleswig-Holstein hat bereits Zweifel am Vorgehen von Telefonica zu erkennen gegeben.

Damit wäre bereits die Erhebung der Daten datenschutzrechtswidrig. Das betrifft dann natürlich auch die weitere Verwendung. Daten, die rechtswidrig erhoben werden, müssen nach § 35 Abs. 2 S. 2 BDSG unverzüglich gelöscht werden – sie können also gar nicht erst für den Käufer anonymisiert und verkauft werden.

2. Anonyme Daten für den Käufer?

Vermutlich ist Telefonica/O2 der Auffassung, dass die Daten an den Abnehmer anonymisiert weitergegeben werden, indem Name etc. nicht mit übermittelt werden. Das dürfte ein Trugschluss sein. Anonym sollen Daten nach § 3 Abs. 6 BDSG in folgenden Fällen sein:

Anonymisieren ist das Verändern personenbezogener Daten derart, dass die Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können.

Das Gegenteil von anonymen Daten sind personenbezogene Daten nach § 3 Abs. 1 BDSG:

Personenbezogene Daten sind Einzelangaben über persönliche oder sachliche Verhältnisse einer bestimmten oder bestimmbaren natürlichen Person (Betroffener).

Dabei ist zu beachten, dass es ausreicht, wenn Daten personenbeziehbar sind, wenn also unter Verwendung z.B. von anderen Daten herausgefunden werden kann, welcher natürlichen Person die Daten zuzuordnen wären.

Nach der Ankündigung will Telefonica dem Käufer der Daten ermöglichen, z.B. herauszufinden, wann und wie lange ein Kunde in seinem Geschäft verweilt hat, aus welcher Richtung er kam etc. Es ist nicht schwer sich vorzustellen, dass der Käufer – auch ohne, dass er den Namen seines Kunden von Telefonica erfährt, in vielen Fällen herausfinden können wird, auf welchen seiner Kunden sich die von Telefonica erworbenen Daten beziehen. In einem Extrembeispiel einer kleinen Boutique mit wenigen Stammkunden muss der Inhaber des Geschäfts im Grunde nur die Kreditkartenabrechnung (Zeitpunkt eines Einkaufs) mit den Daten von Telefonica abgleichen, um herauszufinden, auf welchen Kunden sich die Daten von Telefonica beziehen.

Dieses Beispiel mag zunächst sehr speziell wirken. Es sollte aber nicht vergessen werden, dass auch in Geschäften heutzutage eine Vielzahl von Daten erhoben werden. So ließen sich die Bewegungsdaten nicht nur mit den Abrechnungsdaten, sondern z.B. auch mit Videoaufnahmen kombinieren und so ein eindeutiger Personenbezug herstellen.

Dieser Befund lässt sich im Übrigen ohne weiteres allein auf die Normen des BDSG stützen – der spezielle und weitreichende Schutz des § 98 TKG untermauert ihn zusätzlich.

Fazit und Ausblick

Nach meiner Auffassung wird es Telefonica kaum möglich sein, einen solchen Dienst in Übereinstimmung mit deutschem Recht einführen zu können. Es ist schwer vorstellbar, dass Telefonica eine wirksame Einwilligung seiner Kunden in das Vorgehen erhalten wird, zumal eine solche Einwilligung nachträglich für Bestandskunden eingeholt werden müsste. Auf § 28 BDSG kann sich Telefonica kaum stützen. Das Anlegen und Verkaufen von Bewegungsprofilen gehört nun einmal nicht zu den vertraglich erforderlichen Datennutzungen bei einem Mobilfunkvertrag.

Es ist zu hoffen, dass Telefonica/O2 diese Fragen vor Einführung durch die Rechtsabteilung/externe Kanzleien klären lassen wird – wenn dies nicht bereits erfolgt ist. Es ist wie gesagt schwer vorstellbar, dass ein solches Gutachten zum Ergebnis kommen kann, dass „Smart Steps“ mit deutschem Recht vereinbar ist.

Kunden von Telefonica/O2 können vermutlich bereits nach der jetzt erfolgten Ankündigung rechtlich gegen Smart Steps vorgehen. Telefonica hat im Grunde angekündigt, über seine Kunden Daten unter Verstoß gegen §§ 43, 44 BDSG zu erheben. §§ 43, 44 BDSG stellen Schutzgesetze im Sinne des § 823 Abs. 2 BGB dar. Daher bestehen gute Aussichten, dass ein vorbeugender Unterlassungsanspruch der Kunden von Telefonica/O2 nach § 823 Abs. 2 BGB besteht, die Ankündigung begründet jedenfalls die Wiederholungsfahr. Des Weiteren dürften die Verbraucherzentralen ein Interesse daran haben, gegen solche Modelle frühzeitig vorzugehen.

Es ist abzuwarten, ob entsprechende Abmahnungen (und einstweilige Verfügungen) in naher Zukunft bei Telefonica/O2 eintreffen werden.