Was bedeutet künstliche Intelligenz für den Datenschutz?

Technologie-Hype ist eine launische Ressource. Vor einigen Jahren waren Blockchain und Krypto die magischen Schlagworte, die Risikokapitalgeber dazu veranlassten, zum Scheckbuch zu greifen. Jetzt, da der Sektor einen Wert von 40 % seines Spitzenwerts hat und wichtige Akteure in einem streitigen Sumpf verstrickt sind, hat seine Faszinationskraft nachgelassen und die künstliche Intelligenz hat ihn als Trendthema des Monats endgültig verdrängt.

VCs sind einfach verzweifelt daran interessiert, den KI-Entwicklern Geld zu geben. Mistral AI, das aus drei französischen KI-Ingenieuren und wenig anderem besteht, erhielt nur einen Monat nach der Gründung 105 Millionen Euro bei einer Bewertung von 240 Millionen Euro in Europas größter Seed-Runde aller Zeiten. Auch die Politiker sind begeistert, setzen ihre Hoffnungen auf ein transformatives Produktivitätswachstum auf die Technologie und tun alles in ihrer Macht Stehende, um sicherzustellen, dass in ihrem Zuständigkeitsbereich KI-Unternehmen ansässig sind.

Der Hype mag durchaus berechtigt sein. Die Fähigkeiten der neuesten KI-Tools sind beeindruckend und es scheint unvermeidlich, dass ihre Verbreitung und Entwicklung enorme wirtschaftliche Folgen haben wird.

Doch gerade als die Kryptowährungsbranche auf regulatorische Herausforderungen stößt, beginnt die KI an mehreren Fronten mit eigenen Rechtsstreitigkeiten konfrontiert zu werden. Während die Kryptoindustrie mit Wertpapiergesetzen und Beschränkungen zur Bekämpfung der Geldwäsche zu kämpfen hat, sehen sich KI-Anbieter dem Zorn von Datenschutzbehörden und Aktivisten ausgesetzt. Eine der problematischsten Regelungen für den KI-Sektor ist die Datenschutz-Grundverordnung, das Rechtssystem, das die Privatsphäre aller Einwohner der Europäischen Union und des Vereinigten Königreichs schützt.

Fallstricke öffentlich verfügbarer Daten

Die Entwicklung eines großen Sprachmodells wie ChatGPT erfordert das Sammeln großer Textmengen durch einen Prozess namens Web Scraping. Diese Datensätze erfassen Details aus offenen Online-Quellen wie Social-Media-Profilen. Die Informationen sind gemeinfrei, daher kann es kein Problem sein, sie zu sammeln, oder? Falsch. Datenschutzanwälte legen großen Wert darauf, darauf hinzuweisen, dass KI-Entwickler, die Web Scraping und Analysen betreiben, weiterhin in der Klemme bleiben.

Chris Elwell-Sutton ist Partner im Daten-, Datenschutz- und Cybersicherheitsteam der britischen Anwaltskanzlei TLT. „Man geht allgemein davon aus, dass Daten, die aus öffentlich zugänglichen Quellen stammen, nicht in den Geltungsbereich der DSGVO und ähnlicher Datenschutzbestimmungen fallen.“ „Das ist ein Fehler – möglicherweise ein sehr kostspieliger“, erklärt er. „Sobald Ihre personenbezogenen Daten in einem Dateisystem gespeichert sind, genießen Sie den Schutz der DSGVO, unabhängig von der ursprünglichen Quelle.“

Die DSGVO erlegt jeder Organisation, die personenbezogene Daten speichert, übermittelt oder analysiert, eine Reihe strenger Verpflichtungen auf. Das größte Problem, mit dem LLM-Betreiber durch die DSGVO konfrontiert sein werden, ist die Suche nach einer Rechtsgrundlage für die groß angelegte Ausbeutung der personenbezogenen Daten von Millionen von Menschen ohne deren Wissen oder Zustimmung. Diese Frage ist in ganz Europa einer intensiven behördlichen und gerichtlichen Prüfung unterzogen worden und eine einfache Lösung ist nicht in Sicht.

Es gibt noch Unklarheiten darüber, wie die DSGVO im Detail auf die generative KI angewendet werden soll, aber die ersten Schüsse wurden in einem mit Sicherheit langen und kostspieligen Kampf abgefeuert. ChatGPT wurde von der italienischen Datenschutzbehörde wegen ungenauer Ergebnisse und fehlender Rechtsgrundlagen für die Verarbeitung sowie des Missbrauchs von Kinderdaten vorübergehend verboten. Google musste dann den EU-Start seines Konkurrenten Bard wegen ähnlicher Datenschutzprobleme verschieben – obwohl der Technologieriese es für angebracht hielt, den Dienst im Vereinigten Königreich einzuführen – vielleicht eine Anspielung auf den von Großbritannien versprochenen geschäftspositiven Ansatz zur Durchsetzung des Datenschutzes Konservative Regierung nach dem Brexit.

OpenAI hat seine Datenschutzposition verbessert, indem es eine Altersüberprüfung ermöglicht, es Benutzern ermöglicht, die Verwendung ihrer Daten für Trainingsmodi abzulehnen, und „Maßnahmen ergriffen hat, um persönlich identifizierbare Informationen aus dem Trainingsdatensatz zu entfernen“. Es dürfte jedoch schwierig sein, diese Behauptung zur Zufriedenheit einer Aufsichtsbehörde nachzuweisen.

Die genauen Techniken, die OpenAI verwendet hat, um personenbezogene Daten aus seinem Datensatz zu entfernen, wurden noch nicht im Detail bekannt gegeben, es wurde jedoch „Datenfilterung und Anonymisierung“ erwähnt.

Elwell-Sutton sagte: „Es stimmt zwar, dass die Anonymisierung von Daten dazu führen kann, dass sie nicht mehr in den Geltungsbereich der Datenschutzbestimmungen fallen, eine echte Anonymisierung stellt jedoch eine sehr hohe Hürde dar, die im Rahmen der DSGVO erreicht werden muss.“ Die Prüfung und Prüfung der Wirksamkeit von Anonymisierungsmethoden umfasst in der Regel die Bewertung der Ergebnisse, die ein Tool generiert. Wenn ein Chatbot jedoch auf unvorhersehbare Weise mehrere Antworten auf dieselben Fragen liefert, ist die Prüfung seiner Ausgabe keine zuverlässige Methode zur Beurteilung der Datenschutzfreundlichkeit des Modells. „Das Ganze ist zu undurchsichtig, als dass ein Außenstehender nachprüfen könnte, ob eine echte Anonymisierung stattgefunden hat.“

Eine hohe und steigende Messlatte

Es gibt noch eine weitere potenzielle Auswirkung der KI-Verbreitung auf die Privatsphäre, die Auswirkungen auf viele Organisationen haben wird, die nichts mit KI zu tun haben.

Es gibt keine erschöpfende Liste dessen, was personenbezogene Daten sind. Vielmehr handelt es sich dabei um Daten, die sich auf eine identifizierte natürliche Person beziehen. Prädiktive statt generative KI ist in der Lage, fortschrittliche Algorithmen und prädiktive Analysen zu nutzen, um weitere persönliche Informationen über Einzelpersonen zu extrapolieren.

Dies stellt ein besonderes Risiko für die anonymisierten Daten in KI-Trainingssätzen dar. Damit Daten wirksam anonymisiert werden können, muss allenfalls eine entfernte Wahrscheinlichkeit bestehen, dass eine Person anhand der verwendeten Mittel identifiziert werden kann. „Diese Definition ist technologieabhängig“, sagte Elwell-Sutton. „Daten, die einmal anonymisiert wurden, können sich im Laufe der Zeit in DSGVO-regulierte personenbezogene Daten verwandeln, da leistungsfähigere Tools auf den Markt kommen, die Verbindungen zwischen zuvor nicht zusammenhängenden oder bedeutungslosen Elementen innerhalb von Datensätzen herstellen können.“

KI-Tools sind zunehmend auch in der Lage, durch Inferenz neue personenbezogene Daten zu generieren. „Ein leistungsstarkes Analysetool kann aus ein paar scheinbar harmlosen Datenpunkten wie dem Namen Ihres Partners, Ihrem Standort an einem Gotteshaus oder einem medizinischen Zentrum schnell auf Ihre Religion, Ihre politischen Ansichten, Ihre sexuelle Orientierung oder die Wahrscheinlichkeit, an einer bestimmten Krankheit zu leiden, schließen Krankheit“, sagt Elwell-Sutton. „Diese „abgeleiteten“ personenbezogenen Daten können äußerst sensibel sein und ihre Erstellung und Speicherung hat erhebliche rechtliche Auswirkungen – ein Punkt, den der Europäische Gerichtshof und Regulierungsbehörden in ganz Europa wiederholt bestätigt haben.“

Die mit abgeleiteten Daten verbundenen Risiken stellen für alle Arten von Unternehmen regulatorische Herausforderungen dar, nicht zuletzt diejenigen, die durch das Verbot von Google Analytics in mehreren europäischen Ländern im letzten Jahr betroffen waren. LLM-Entwickler können diese Probleme als besonders schmerzhaft empfinden, da die Größe und Komplexität ihrer Trainingsdatensätze es schwierig macht, geeignete Leitplanken festzulegen und diese zu prüfen. Die Bereinigung von Trainingsdatensätzen dürfte für LLM-Entwickler weiterhin ein Problem darstellen. Die Einhaltung datenschutzrechtlicher Vorschriften kann mit der komplexen technischen Herausforderung verbunden sein, Verweise auf bestimmte Personen dauerhaft aus Trainingsdaten zu entfernen.

Eine Alternative ist eine regulatorische Ausnahmeregelung, die die Regeln für die Einbeziehung personenbezogener Daten in KI-Trainingsdatensätze lockert. Dies liegt nicht außerhalb des Bereichs des Möglichen – das Vereinigte Königreich lockert die Regeln rund um die Aufnahme von urheberrechtlich geschütztem Material für KI-Entwickler – aber da so viele Gerichtsbarkeiten die Auswirkungen von KI auf den Datenschutz prüfen, ist es unwahrscheinlich, dass rechtliche Probleme so schnell verschwinden.

KI-Entwickler ignorieren diese rechtliche Bedrohung nicht, aber ihr Ansatz zum Datenschutz lässt laut Elwell-Sutton zu wünschen übrig. „Der Fokus von OpenAI auf Privatsphäre und Datenschutz war bisher erfolgreich“, sagte er. „Das Problem besteht darin, dass sich ihre Bemühungen um das überschaubare Problem der von Benutzern bereitgestellten Daten drehen und nicht um die riesigen Seen personenbezogener Daten, die aus öffentlichen Quellen entnommen und zum Trainieren ihrer Modelle verwendet werden.“ „Sie haben bei den niedrig hängenden Früchten gute Arbeit geleistet, aber es gibt noch viel zu tun.“

Lewis McLellan ist Herausgeber des Digital Monetary Institute, OMFIF.

Fallstricke öffentlich verfügbarer DatenEine hohe und steigende Messlatte