Privatsphäre im Web 2.0? Dieser Frage geht Frau Prof. Geierhos nach

8 Juli 2020

Das moderne Web basiert auf Interaktion, Diskussion und Austausch von Informationen. Dieser digitale Austausch wurde einmal mehr durch den Mangel an persönlichen sozialen Kontakten während der Corona-Krise verstärkt.

Ein Beitrag von Prof. Michaela Geierhos, Professur für Data Science

Das moderne Web basiert auf Interaktion, Diskussion und dem Austausch von Informationen. Dieser digitale Austausch wurde einmal mehr durch den Mangel an persönlichen sozialen Kontakten während der Corona-Krise verstärkt. So wurden mehr Inhalte auf Webseiten kommentiert, zahlreiche Bewertungen zu Produkten oder Dienstleistungen verfasst und es fand ein reger Austausch von Text- und Bildmaterial mit einer begrenzten oder unbegrenzten Anzahl weiterer Personen statt. Wir erleben dies vor allem auf sozialen Netzwerken aber auch auf Bewertungsplattformen (z. B. für Arztbewertungen) und Foren (z. B. Eltern-Treffpunkte). Dieses charakteristische Merkmal des Web 2.0 erklärt den großen Erfolg des Internets in seiner heutigen Form, das vom Mitmachen lebt.

Vernetzte Welt: Open Source Intelligence 

Durch die fortschreitende semantische Vernetzung im Web (sog. „Semantic Web“) entsteht aber auch eine riesige, frei zugängliche Informationsquelle für datengesteuerte Anwendungen. Dies stellt unter Umständen ein persönliches Risiko für Einzelne dar. Da im Web die nutzergenerierten Daten (sog. „User-generated Content“) immer effektiver mit bestehenden Ressourcen (sog. Wissensquellen) automatisiert verknüpft werden, können selbst ungewollt (implizit) offenbarte Einzelinformationen schädliche Folgen für einzelne Personen haben. Obwohl Serviceprovider im Web die Pflicht und auch das Interesse daran haben, die Sicherheit und Privatsphäre von Benutzerdaten zu gewährleisten, gibt es Fälle, in denen Benutzerdaten missbraucht und kompromittiert oder öffentlich verfügbare Informationen geg­en den ursprünglichen Verfasser verwendet werden. Die bestehenden Datenschutzrichtlinien, Betreiberhinweise und (teil-)automatisierte Schutzmechanismen, welche die Privatsphäre von Personen schützen sollen, sind hierbei oftmals unzureichend. Es ist somit im Interesse der Kommunizierenden, nur diejenigen Informationen in Textbeiträgen zu platzieren, die einen gewissen selbstbestimmten Grad an Anonymität wahren.

Der digitale Fußabdruck verleitet zum Datenmissbrauch

In der Vergangenheit häuften sich die Fälle, dass persönliche Informationen gegen die Urheber selbst eingesetzt wurden. Informationen, die tagtäglich, stückweise und über Jahre veröffentlicht wurden, sind für die Verfasser nicht mehr überschaubar, nicht mehr editierbar und damit nicht mehr kontrollierbar. Sie haben das Potential, zur Erzeugung eines sogenannten digitalen Zwillings genutzt zu werden. Ein sehr greifbares Beispiel sind hier Gesundheitsforen, in denen Benutzer unter einem Pseudonym Hilfe zu gesundheitlichen Themen suchen. In einzelnen Beiträgen achten die Verfasser im Idealfall darauf, nicht zu viele Informationen preiszugeben. Sie vergessen dabei allerdings, dass die Summe der Beiträge über die gesamte Existenz ihres Benutzerkontos zur Erzeugung eines digitalen Zwillings herangezogen werden kann. Im Projekt „TextBroom“ konnte gemeinsam mit Dr. Frederik Bäumer von der FH Bielefeld aufgezeigt werden, dass sich bei vielen Benutzerkonten über mehrere Beiträge und mehrere Jahre ein aufschlussreiches „Informationspuzzle“ ergab. Werden im ersten Beitrag üblicherweise private Angaben, wie der Vorname, noch verschwiegen und beispielsweise nur das behandelnde Krankenhaus, die Namen der Ärzte, die Erkrankung und die Medikamente angegeben, findet der Name sich nach einer Eingewöhnungsphase in zukünftigen Beiträgen der gleichen Person zusammen mit dem Geschlecht und dem Familienstand („als alleinerziehende Mutter“). Letzteres zeigt, dass Informationen (hier z. B. das Geschlecht) nicht explizit angegeben werden müssen, sondern sich im Inhalt verstecken können (hier: „Mutter“). Dies erschwert es, anonym zu bleiben.

Informationspreisgabe durch unbedachte Äußerungen

Deshalb kann man auch von privatsphäregefährenden sprachlichen Ausdrücken sprechen. Dabei handelt es sich um einzelne Vokabeln oder Satzteile, die aufgrund ihrer Wortbedeutung oder Querverweise im Text leicht Rückschlüsse auf nicht explizit genannte Merkmale oder Beziehungen der genannten Personen ziehen lassen. Um diese sichtbar zu machen, müssen erstmals Identitätsoffenbarungen mithilfe Künstlicher Intelligenz in Texten aufgespürt und gemäß ihrer möglichen situativen Gefährdung für die Einzelnen eingestuft werden. Nur dann kann nachvollziehbar vor Augen geführt werden, ab wann es mit der Anonymität im Netz vorbei ist.

Während die Webseite „Please rob me“ bereits 2010 dafür entwickelt wurde, online Kommunizierende zu sensibilisieren, mit ihren Standort- und Termininformationen vorsichtiger im Social Web umzugehen, wurde einiges in Schutzmechanismen zur Anonymisierung von Standortdaten (Textnachrichten, Bildern, etc.) investiert. Allerdings blieb der digitale Schutz der Privatsphäre gerade in unidirektionaler Kommunikation (Kommentare, Bewertungen) im Web 2.0 bisher auf der Strecke. Ehrlich gemeinte Erfahrungsberichte können zum Angriffspunkt werden, wenn die darin genannten Details für Dritte von Wert sind. Bestehende Schutzmaßnahmen werden der Komplexität des Problems allerdings nicht gerecht, da sie durch Abgleich mit identitätsverratenden Floskeln (z. B. „Mein Name ist“) nur auf die potenzielle Gefahr hinweisen. Stattdessen ist Privatsphäregefährdung als vielschichtiges Phänomen zu begreifen – sie manifestiert sich oft zwischen den Zeilen. Kombiniert man dieses Wissen aus den nutzergenerierten Texten den Informationen aus weiteren Online-Ressourcen (z. B. Telefonbuch, etc.) lässt sich sukzessive aus vielen Puzzleteilen ein Digitaler Zwilling erzeugen.

Privatsphäre gefährdet?

Wie sich (unwissentliche) Informationspreisgabe in sprachlichen Ausdrücken manifestiert, wurde bisher nur unzureichend untersucht. In eigenen Vorarbeiten konnte aufzeigt werden, dass sprachliche Formulierungen oft mehr Informationen enthalten, als es zunächst den Anschein erweckt und diese in Kombination mit Meta-Informationen (z. B. Datum der Bewertung, Alter, Krankenkasse, Ort der Praxis) merklich an Aussagekraft gewinnen. Existierende Ansätze nutzen meist vordefinierte Muster zur Erkennung von Privatsphäregefährdung, die nur begrenzt dem Gestaltungsfreiraum natürlicher Sprache gerecht werden und die ausschließlich eine offensichtliche (explizite) Informationspreisgabe feststellen konnten. Unter anderem erwähnenswert ist das Tool NETANOS (Named Entity-based Text ANonymization for Open Science) von Kleinberg & Mozes (2017), dass Eigennamen wie z. B. Personennamen in Fließtexten erkennen und hervorheben kann. Hierbei handelt es sich bislang jedoch stets um Eigennamen, deren wörtliche Nennung zwar eine Gefahr für die Privatsphäre der Betroffenen darstellen kann, deren Erkennung jedoch trivial im Vergleich zur Behandlung der Ausdruckskomplexität von Privatsphäregefährdungen in Fließtexten ist. Denn immer noch fehlt es an Wissen über die genaue sprachliche Manifestierung und an computerlinguistischen Verfahren, die drauf zurückgreifen können.

Dies ist allerdings zwingend erforderlich, um entsprechende privatsphäregefährdende Textbestandteile zu identifizieren und mit einer Erläuterung möglicher Risiken zu versehen. Mit dem Tool „TextBroom“ wurde ein Konzept vorgestellt, welches sich der Herausforderung der Erkennung von Informationspreisgaben durch eine vielschichtige, computerlinguistische Verarbeitungskette annimmt. Es konnte aufgezeigt werden, dass durch die schrittweise Analyse der nutzergenerierten und domänenspezifischen Wissensressourcen eine automatische Erkennung von isolierten, privatsphäregefährdenden Aussagen möglich ist. Jedoch wird dieses Verfahren noch nicht der Herausforderung in Gänze gerecht, da das Zusammenwirken einzelner Informationen unberücksichtigt bleibt. Dies ist allerdings zwingend erforderlich, um entsprechende privatsphäregefährdende Textbestandteile zu identifizieren und mit einer Erläuterung möglicher Risiken zu versehen.


Dieser Artikel erschien am 08.07.2020 auch auf der Startseite der UniBw M >>


Titelbild: © iStockphoto / anyaberkut