[Chaos CD]
[HaBi 2]    Für eine Handvoll Daten
[Gescannte Version] [ -- ] [ ++ ] [Suchen]  

 

Für eine Handvoll Daten

De-Anonymisierung des gezählten Volkes

Es begab sich aber zu der Zeit, daß ein Gebot ausging von dem Kaiser Augustus, daß alle Welt sich schätzen ließe (Chaos-Textbaustein 42).

So wurde zu biblischen Zeiten die Tatsache dokumentiert, daß jede Regierungsform Informationen über die Regierten benötigt, also Daten, anhand derer man Entscheidungen für die Zukunft treffen kann. Dieses legitime Bedürfnis findet sich heutzutage wesentlich prosaischer formuliert im Volkszählungsgesetz wieder. Indula (Textbaustein aus dem CDU-Textsystem; bedeutet 'in diesem unserem Lande') werden traditionell Erhebungen durchgeführt, die aufschlußreiche Daten zur Befriedigung des Informationshungers der Behörden und der Wirtschaft liefern sollen. Bekanntlich wurde - nach großen öffentlichen Protesten - die ursprünglich für 1983 vorgesehene Volkszählung durch ein Urteil des Bundesverfassungsgerichtes gestoppt und den Verantwortlichen eindringlich klargemacht, zu welchen Bedingungen eine künftige Zählung machbar sei:

Es sei zu, "prüfen, ob eine Totalerhebung trotz einer inzwischen fortgeschrittenen Entwicklung der statistischen und sozialwissenschaftlichen Methoden noch verhältnismäßig ist" (BVerfG'83, Seite 59). Darüber hinaus bedürfe es einer "möglichst frühzeitigen, faktischen Anonymisierung, verbunden mit Vorkehrungen gegen eine Deanonymisierung" (BVerfG'83, S. 52/53). Interessant ist die Forderung des Gerichtes nach öffentlicher sachlicher Information auch über die Art der statistischen Datenverarbeitung, "da Abschottung statt Information zu Mißtrauen und mangelnder Kooperationsbereitschaft führen würde" (BVerfG'83, S. 54)

Jetzt stellt sich natürlich die Frage, was der CCC mit der ganzen Sache zu tun hat. Nun, erstens interessiert die Redaktion von vornherein alles, was irgendwie nach Mißbrauch von Macht mittels des Werkzeugs Computer riecht. Zweitens ist so ein Urteil des Bundesverfassungsgerichtes ja ganz nett, aber wenn die Kontrollinstanzen fehlen, welche die Durchführung eines solchen Urteils überwachen, ist Jedermann aufgerufen, das Seine dazuzutun, um Schaden von diesem unseren Volke abzuwenden. Drittens haben wir im Rahmen des Chaos Communication Congress 1986 Material erhalten, das uns geradezu verpflichtet, tätig zu werden.

Am Institut für Informatik der Universität Hamburg wurden in den letzten Monaten umfangreiche Studien durchgeführt, die zweifelsfrei belegen, daß die mit der Volkszählung 1987 gewonnen Daten, entgegen der eindeutigen Forderung des Verfassungsgerichtes, eben nicht 'faktisch anonym' sind, sondern sehr wohl, und recht einfach, eine Identifizierung des Dateninhabers ermöglichen. Den - wahrscheinlich neuen - Begriff des DATENINHABERS benutzen wir hier sehr bewußt, um deutlich zu machen, daß es in einer Informationsgesellschaft auch ein Grundrecht auf informationelle Selbstbestimmung geben muß. Und das fängt eben damit an, daß jeder Einzelne selbst bestimmt, wer welche Daten über ihn sammelt und benutzt.

Die unter der Leitung von Professor Klaus Brunnstein durchgeführten Versuche zeigen erschreckend deutlich, mit welch einfachen Mitteln es möglich ist, aus den angeblich anonymisierten, d. h. nicht mehr personenbezogenen Daten wieder personalisierte Daten zu machen. Grundlage der Versuche war eine künstliche Volkszählungsdatei, die ausschließlich Daten enthält, wie sie bei der Zählung 1987 anfallen werden, ohne die momentan laufende Stammdatenerhebung bei den Hausbesitzern und Arbeitgebern auch nur annähernd einzubeziehen, so daß letztlich die Angaben, die jeder einzelne von uns macht, es ermöglichen, wieder auf jeden Einzelnen zu schließen.

Brunnsteins Studie zeigt einwandfrei, daß es mit einem einfachen Werkzeug, wie dem Datenbanksystem DBase III unter MS-Dos, möglich ist, mit wenigen Filtervorgängen ganz konkrete Einzelpersonen aus einem Datenberg von 100000 Datensätzen herauszufischen. Bei 60 Millionen Datensätzen braucht man halt nur eine größere Festplatte und entsprechend mehr Zeit...

Wir wollen die Vorgehensweise zur Reanonymisierung von Volkszählungsdaten anhand eines Beispiels deutlich machen: Zielgruppe des Versuchs sind 46jährige Männer aus der Bürobranche. Unser erster Schritt ist also konsequenterweise der, zuerst nach dem Geburtsjahr zu filtern. Es bleibt eine Datei mit 915 Personen übrig, die 1940 nach dem Stichtag der Volkszählung geboren wurden. Diese Datei filtern wir nach dem Geschlecht und erhalten eine Datei mit 443 Personen, die wir auf das Merkmal Erwerbstätigkeit prüfen. Übrig bleiben 386 männliche Erwerbstätige von 46 Jahren. Bürokräfte haben die Schlüsselnummer 78, also suchen wir jetzt danach und erhalten eine Datei, die nur noch 26 Personen enthält. Wir sollten uns dabei deutlich vor Augen halten, daß wir nur drei Merkmale brauchten, um aus 100000 Datensätzen einige wenige herauszufischen. Der nächste Schritt besteht darin, die 'Wirtschaftsabteilung' , zu sondieren. Wir erhalten elf Datensätze, die wir auf das Merkmal Schulabschluß prüfen. Ergebnis: fünf Volks- bzw. Realschüler. Zusätzlich fragen wir, wer davon einen Berufsfachschulabschluß hat, übrig bleiben drei Kandidaten.

Wir haben bislang erst sechs signifikante Merkmale untersucht, werden aber trotzdem hinterhältig und fragen uns: was wissen wir denn sonst so über die Drei? Über das Merkmal 'gemeinsamer Haushalt' können wir weitere Schlüsse ziehen (Das Volkszählungsgesetz 1987 schreibt ausdrücklich vor, daß "die Zusammenhänge zwischen Personen und Haushalt, Haushalt und Wohnung, Wohnung und Gebäude, ... festgehalten" werden, was beim Gesetz zur Zählung '83 nicht der Fall war). Wir könnten nun also noch feststellen, daß Herr A ledig und religionslos ist und in einem Einzelhaushalt lebt. Damit ist er nun aber wirklich eindeutig reanonymisiert, denn B und C sind verheiratet und über ihre Ehepartner eher noch leichter reanonymisierbar. Zusammen mit der Tatsache, daß auch eine Information vorhanden ist, anhand derer der sogenannte Block des Dateninhabers feststellbar ist (Blöcke sind die kleinste Einheit von Datensatzmengen. Sie begrenzen die Datensätze von Personen, die in einer Straßenfront zwischen zwei Einmündungen von Nebenstraßen wohnen), wird nun leicht vorstellbar, warum Herr A spätestens 1989 Werbung von einem Heiratsvermittler bekommt, während Herr B davon verschont bleibt.

Der Forderung des Bundesverfassungsgerichts wird also mit der Volkszählung 1987 in keiner Weise Rechnung getragen. Faktische Anonymisierung bedeutet nunmal, daß eine Reanonymisierung nur mit unverhältnismäßig hohem Aufwand möglich sein darf. Schon durch die Art der erhobenen Daten wird eine Entscheidung, die unsere höchste verfassungsmäßige Instanz getroffen hat, schlicht ignoriert. Abschließend noch einige Zitate aus der Studie, die wir unkommentiert lassen, da sie für sich sprechen:

"Bei diesen Ergebnissen ist zu berücksichtigen, daß wesentliche Merkmale der Volkszählung, die eine Identifizierung noch erleichtern, etwa die Adresse des Arbeitgebers oder der Ausbildungsstätte, in den Re-Identifizierungs-Versuchen nicht einmal benutzt wurden."

"Erstens: Es gibt kaum Personen innerhalb des Datenbestandes, die nicht anhand der über sie gespeicherten Merkmale re- identifizierbar wären.
Zweitens: Mehr als die Hälfte aller Erwerbstätigen können schon mit wenigen Merkmalen ... re-identifiziert werden" "... da die Organisation der Statistik als interne Aufgabe der Exekutive angesehen wird, gibt es praktisch keine Kontrollinstanz ..."

"So sind die Präsidenten der Statistischen Ämter die letzten wahren, weil unkontrollierten Könige dieser Republik."

Alle Zitate und das Re-Identifizierungsbeispiel stammen aus: "Mitteilung Nr. XX über Möglichkeiten der Re-Identifikation von Personen aus Volkszählungsdaten" von Klaus Brunnstein, Hamburg, Dezember 1986.

(Die Studie sowie Beispieldaten und die Re-Identifikationsprogramme können über die DATENSCHLEUDER-Redaktion bezogen werden).
 

 

  [Chaos CD]
[HaBi 2]    Für eine Handvoll Daten
[Gescannte Version] [ -- ] [ ++ ] [Suchen]