Waren

Privacy Loop: Künstliche Intelligenzen im Labyrinth von Datenschutz und Urheberrecht

Dies ist der erste von zwei Artikeln, in denen ich mich mit der heiklen Beziehung zwischen Datenschutz und Urheberrecht einerseits und künstlicher Intelligenz andererseits befasse.

Eine problematische Beziehung, bei der sich die technologische Entwicklung so schnell vollzieht, dass jede regulatorische Anpassung ab ihrer ersten Anwendung überflüssig wird.

Die Lösung heikler Fragen im Zusammenhang mit den Rechten der Menschen und personenbezogenen Daten erfordert Aufmerksamkeit, Kompetenz und eine unverzichtbare Diskussion zwischen Intellektuellen und Spezialisten unserer Zeit. Wir stellen fest, dass wir gesellschaftliche Regeln nicht schnell genug an die Herausforderungen anpassen, die technologische Innovationen an uns stellen. Aufkommende Technologien finden zunehmend auf freiem Feld statt, da es keinerlei Vorschriften gibt, die ihre Anwendung einschränken, und sie können ungehindert Schaden anrichten, was bedeutet, dass sie dies völlig ungestraft tun.

Ist eine Steuerung vorstellbar, die von der technologischen Entwicklung bis zur wissenschaftlichen Forschung und ihren strategischen Zielen reicht?

Ist es denkbar, die Entwicklung unserer Spezies zu steuern und gleichzeitig die individuellen Freiheiten zu respektieren?

Privatsphäre?

„Je mehr man versucht, sich zu verstecken, desto mehr Aufmerksamkeit erregt man. Warum ist es so wichtig, dass niemand von dir weiß?“ – aus dem Film „Anon“, geschrieben und inszeniert von Andrew Niccol – 2018

Im Film "AlsbaldIm Jahr 2018 ist die Gesellschaft der Zukunft ein dunkler Ort, der unter der direkten Kontrolle eines gigantischen Computersystems namens Ether steht und in der Lage ist, jeden Winkel der Nation zu überwachen, indem es sie mit den Augen derselben Menschen beobachtet, die sie bevölkern. Jeder Mensch ist im Namen von Ether ein Aufseher und seine erste Verantwortung besteht natürlich darin, sich selbst und sein Verhalten zu überwachen.

Ether ist der beste Verbündete der Polizeikräfte: Durch Ether können Agenten die Erfahrungen einer Person nachverfolgen, indem sie sie mit eigenen Augen nacherleben, und jede Art von Verbrechen aufklären.

Polizist Sal fragt sich, warum Sie für den Schutz Ihrer Privatsphäre kämpfen sollten: Was nützt es, wenn Sie keinen Grund haben, sich zu verstecken? Denn wie können wir in einer Zeit, in der die Technologien, die wir entwickeln, um die Sicherheit unserer Häuser und unserer Straßen zu erhöhen, die Aufzeichnung, Überwachung und Überprüfung solcher Informationen im Interesse der Menschen selbst, die um Schutz bitten, eine Garantie erwarten, erwarten? ihre Privatsphäre?

Um zu demonstrieren, wie gefährlich es ist, Zugriff auf das Leben anderer zu haben, wird ein Hacker die Kontrolle über Ether übernehmen und ein schrecklicher Albtraum wird über das Leben von Millionen von Menschen hereinbrechen: die Gefahr, als hilflose Zuschauer den Bildern der meisten Menschen zusehen zu müssen gequälte Momente ihres Lebens, direkt in ihre Netzhaut übertragen.

The Loop

Le künstliche neuronale Netze die dem Funktionieren moderner künstlicher Intelligenzen zugrunde liegen, drehen sich um drei Hauptelemente: Grundinformationen, anders genannt Korpus, ein Algorithmus zur Informationsaufnahme und a Speicher für ihr Auswendiglernen.

Der Algorithmus beschränkt sich nicht auf das banale Laden von Informationen in den Speicher, er durchsucht ihn nach Elementen, die sie miteinander in Beziehung setzen. Eine Mischung aus Daten und Beziehungen wird in den Speicher übertragen, der eine bildet Modell.

Innerhalb eines Modells sind Daten und Beziehungen völlig ununterscheidbar, weshalb es nahezu unmöglich ist, den Korpus der ursprünglichen Trainingsinformationen aus einem trainierten neuronalen Netzwerk zu rekonstruieren.

Dies gilt insbesondere dann, wenn Korpusse große Datenmengen enthalten. Dies ist der Fall bei den großen Sprachsystemen, die als bekannt sind Large Language Models (kurz LLM) einschließlich des berüchtigten ChatGpt. Ihre Wirksamkeit verdanken sie der großen Menge an Informationen, die im Training verwendet werden: Derzeit erfordert ein gutes Training mindestens einige Terabyte an Daten, und wenn man bedenkt, dass ein Terabyte 90 Milliarden Zeichen entspricht, also etwa 75 Millionen Textseiten, ist es leicht zu verstehen, dass dies der Fall ist Es werden so viele Informationen benötigt.

Aber wenn Modelle nicht dekonstruiert werden können, warum sollten wir uns dann mit dem Problem der Datenschutzverletzungen befassen?

Datendominanz

„Wer verrückt ist, kann eine Befreiung von Flugeinsätzen beantragen, aber wer eine Befreiung von Flugeinsätzen beantragt, ist nicht verrückt.“ – basierend auf dem Roman „Catch 22“ von Joseph Heller.

Innovations-Newsletter
Verpassen Sie nicht die wichtigsten Neuigkeiten zum Thema Innovation. Melden Sie sich an, um sie per E-Mail zu erhalten.

Die Sammlung von Daten in einem solchen Umfang, dass die Erstellung von Projekten wie ChatGpt oder ähnlichen Projekten möglich ist, ist heute das Vorrecht großer multinationaler Unternehmen, die durch ihre digitalen Aktivitäten in die Lage versetzt wurden, über den größten Informationsspeicher zu verfügen der Welt: das Web.

Google und Microsoft, die seit Jahren Suchmaschinen verwalten, die das Web scannen und enorme Informationsmengen extrapolieren, sind die ersten Kandidaten für die Schaffung von LLM, den einzigen KI-Modellen, die in der Lage sind, Informationsmengen wie die oben beschriebenen zu verarbeiten.

Es ist kaum zu glauben, dass Google oder Microsoft in der Lage wären, persönliche Informationen in ihren Daten zu verschleiern, bevor sie sie als Korpus für das Training eines neuronalen Netzwerks verwenden. Bei linguistischen Systemen bedeutet die Anonymisierung von Informationen, dass personenbezogene Daten innerhalb eines Korpus identifiziert und durch gefälschte Daten ersetzt werden. Stellen wir uns einen Korpus von der Größe einiger Terabyte vor, mit dem wir ein Modell trainieren wollen, und versuchen wir uns vorzustellen, wie viel Arbeit nötig wäre, um die darin enthaltenen Daten manuell zu anonymisieren: Das wäre praktisch unmöglich. Wenn wir uns jedoch auf einen Algorithmus verlassen wollten, der dies automatisch erledigt, wäre das einzige System, das diese Aufgabe erfüllen könnte, ein anderes ebenso großes und ausgefeiltes Modell.

Wir haben es mit einem klassischen Catch-22-Problem zu tun: „Um ein LLM mit anonymisierten Daten zu trainieren, brauchen wir ein LLM, das in der Lage ist, diese zu anonymisieren, aber wenn wir ein LLM haben, das in der Lage ist, die Daten zu anonymisieren, wurde sein Training nicht mit anonymisierten Daten durchgeführt.“ . ”

Die DSGVO ist veraltet

Die DSGVO, die (fast) weltweit die Regeln für die Achtung der Privatsphäre der Menschen vorschreibt, ist angesichts dieser Themen bereits eine alte Nachricht und der Schutz personenbezogener Daten im Rahmen eines Trainingssatzes wird nicht in Betracht gezogen.

In der DSGVO wird die Verarbeitung personenbezogener Daten zum Zwecke der Kenntnis allgemeiner Zusammenhänge nur teilweise durch Artikel 22 geregelt, in dem es heißt: „Die betroffene Person hat das Recht, nicht einer ausschließlich auf einer automatisierten Verarbeitung – einschließlich Profiling – beruhenden Entscheidung unterworfen zu werden, die die Verarbeitung personenbezogener Daten zum Zwecke der Aufklärung über allgemeine Zusammenhänge und Zusammenhänge regelt bei ihm Rechtswirkungen entfaltet oder ihn in ähnlicher und erheblicher Weise beeinträchtigt.

In diesem Artikel wird das Verbot für Datenverantwortliche eingeführt, die personenbezogenen Daten einer Person im Rahmen eines vollautomatisierten Entscheidungsprozesses zu verwenden, der unmittelbare rechtliche Auswirkungen auf die Person hat. Aber neuronale Netze, die sich leicht an automatisierte Entscheidungsprozesse anpassen lassen, erwerben nach dem Training die Fähigkeit, automatische Entscheidungen zu treffen, die sich auf das Leben der Menschen auswirken können. Doch nicht immer sind diese Entscheidungen „logisch“. Tatsächlich lernt jedes neuronale Netzwerk während des Trainings, Informationen miteinander zu verknüpfen und sie oft auf absolut nichtlineare Weise miteinander in Beziehung zu setzen. Und das Fehlen einer „Logik“ macht die Arbeit für den Gesetzgeber, der die Privatsphäre der Menschen schützen möchte, nicht einfacher.

Wenn man sich außerdem für die Anwendung einer äußerst restriktiven Richtlinie entscheiden würde und beispielsweise die Verwendung sensibler Daten ohne ausdrückliche Genehmigung des Eigentümers verbieten würde, wäre die legale Nutzung neuronaler Netze undurchführbar. Und der Verzicht auf neuronale Netzwerktechnologien wäre ein großer Verlust, denken Sie nur an die Analysemodelle, die mit den klinischen Daten der Probanden einer Bevölkerung trainiert werden, die teilweise von einer bestimmten Krankheit betroffen ist. Diese Modelle tragen zur Verbesserung der Präventionspolitik bei, indem sie Korrelationen zwischen den in den Daten vorhandenen Elementen und der Krankheit selbst identifizieren, unerwartete Korrelationen, die in den Augen von Klinikern völlig unlogisch erscheinen können.

Bedürfnisse verwalten

Es ist gelinde gesagt heuchlerisch, das Problem der Achtung der Privatsphäre der Menschen aufzuwerfen, nachdem deren Datensammlung jahrelang wahllos genehmigt wurde. Die DSGVO selbst ist mit ihrer Komplexität für zahlreiche Manipulationen verantwortlich, die es ermöglichen, eine Genehmigung zur Verarbeitung personenbezogener Daten zu erhalten, indem sie die Mehrdeutigkeit der Klauseln und die Schwierigkeit des Verständnisses ausnutzen.

Wir brauchen auf jeden Fall eine Vereinfachung des Rechts, die seine Anwendbarkeit ermöglicht, und eine echte Aufklärung über den bewussten Umgang mit personenbezogenen Daten.

Mein Vorschlag besteht darin, dass Unternehmen nicht die persönlichen Daten von Nutzern erfahren, die sich für ihre Dienste registrieren, auch wenn es sich um kostenpflichtige Dienste handelt. Die Nutzung gefälschter personenbezogener Daten durch Privatpersonen soll bei der Nutzung von Online-Systemen automatisch erfolgen. Die Nutzung realer Daten sollte sich ausschließlich auf den Einkaufsprozess beschränken und sicherstellen, dass diese stets vollständig von der Servicedatenbank getrennt sind.

Die Kenntnis der Geschmäcker und Vorlieben des Subjekts ohne die Zuordnung eines Namens oder Gesichts zu diesem Profil würde als eine vorgelagerte Form der Anonymisierung fungieren, die automatisch die Erfassung von Daten und deren Verwendung in Automatisierungssystemen wie künstlichen Intelligenzen ermöglichen würde.

Artikel von Gianfranco Fedele

Innovations-Newsletter
Verpassen Sie nicht die wichtigsten Neuigkeiten zum Thema Innovation. Melden Sie sich an, um sie per E-Mail zu erhalten.

Aktuelle Artikel

Cisco Hypershield und Übernahme von Splunk Die neue Ära der Sicherheit beginnt

Cisco und Splunk unterstützen Kunden dabei, ihren Weg zum Security Operations Center (SOC) der Zukunft zu beschleunigen, mit…

8. Mai 2024

Jenseits der wirtschaftlichen Seite: die nicht offensichtlichen Kosten von Ransomware

Ransomware dominiert seit zwei Jahren die Nachrichten. Den meisten Menschen ist durchaus bewusst, dass Angriffe…

6. Mai 2024

Innovativer Eingriff in Augmented Reality mit einem Apple-Viewer in der Poliklinik Catania

In der Poliklinik von Catania wurde eine Augenkorrektur mit dem kommerziellen Viewer Apple Vision Pro durchgeführt.

3. Mai 2024

Die Vorteile von Malvorlagen für Kinder – eine Welt voller Magie für alle Altersgruppen

Die Entwicklung der Feinmotorik durch Malen bereitet Kinder auf komplexere Fähigkeiten wie das Schreiben vor. Färben…

2. Mai 2024

Die Zukunft ist da: Wie die Schifffahrtsindustrie die Weltwirtschaft revolutioniert

Der Marinesektor ist eine echte globale Wirtschaftsmacht, die auf einen 150-Milliarden-Milliarden-Markt zusteuert...

1. Mai 2024

Verlage und OpenAI unterzeichnen Vereinbarungen zur Regulierung des Informationsflusses, der von künstlicher Intelligenz verarbeitet wird

Letzten Montag gab die Financial Times einen Deal mit OpenAI bekannt. FT lizenziert seinen erstklassigen Journalismus…

30. April 2024

Online-Zahlungen: So zahlen Sie mit Streaming-Diensten ewig

Millionen von Menschen zahlen für Streaming-Dienste monatliche Abonnementgebühren. Es ist eine weitverbreitete Meinung, dass Sie…

29. April 2024

Veeam bietet den umfassendsten Support für Ransomware, vom Schutz bis zur Reaktion und Wiederherstellung

Coveware by Veeam wird weiterhin Dienstleistungen zur Reaktion auf Cyber-Erpressungsvorfälle anbieten. Coveware wird Forensik- und Sanierungsfunktionen anbieten …

23. April 2024