Artigos

Privacy Loop: intelixencias artificiais no labirinto da Privacidade e do Copyright

Este é o primeiro de dous artigos nos que abordo a delicada relación entre Privacidade e Dereitos de Autor, por unha banda, e a Intelixencia Artificial, por outra.

Unha relación problemática onde a evolución tecnolóxica está a resultar tan rápida que deixa obsoleta calquera axuste normativo dende a súa primeira aplicación.

Abordar cuestións espiñentas que implican os dereitos das persoas e os datos persoais require atención, competencia e unha discusión indispensable entre intelectuais e especialistas do noso tempo. Estamos descubrindo que non somos o suficientemente rápidos para adaptar as regras sociais aos retos que nos supoñen as innovacións tecnolóxicas. As tecnoloxías emerxentes atópanse cada vez máis operando en campo aberto, en ausencia total dunha normativa que limite a súa aplicación, libre de causar danos e, polo tanto, de facelo con total impunidade.

É posible imaxinar un control que remonte a cadea do desenvolvemento tecnolóxico ata a investigación científica e os seus obxectivos estratéxicos?

¿É concebible gobernar a evolución da nosa especie mantendo un firme respecto ás liberdades individuais?

Privacidade?

"Canto máis intentas ocultar, máis chamas a atención. Por que é tan importante que ninguén saiba de ti?" – da película “Anon” escrita e dirixida por Andrew Niccol – 2018

Na película "Sen demora” de 2018, a sociedade do futuro é un lugar escuro, baixo o control directo dun xigantesco sistema informático chamado Ether, capaz de vixiar cada recuncho da nación observándoa a través dos ollos das mesmas persoas que a poboan. Cada ser humano é un supervisor en nome de Ether e a súa primeira responsabilidade é, por suposto, supervisar a si mesmo e o seu comportamento.

Ether é o mellor aliado das forzas policiais: a través de Ether, os axentes poden rastrexar a experiencia de calquera persoa revivindoa cos seus propios ollos e resolver calquera tipo de crime.

O axente de policía Sal pregúntase por que debes loitar por protexer a túa privacidade: para que non tes motivos para esconderte? Despois de todo, nunha época na que as tecnoloxías que construímos para aumentar a seguridade dos nosos fogares e das nosas rúas requiren a gravación, vixilancia e verificación desta información en interese das propias persoas que piden protección, como podemos esperar garantir a súa privacidade?

Para demostrar o perigoso que é ter acceso á vida dos demais, un hacker tomará o control de Ether e un terrible pesadelo descenderá sobre a vida de millóns de persoas: a ameaza de ter que ver como espectadores indefensos as imaxes dos máis momentos atormentados das súas vidas, retransmitidos directamente nas súas retinas.

O Loop

Le redes neuronais artificiais que subxacen ao funcionamento das intelixencias artificiais modernas, xiran en torno a tres elementos principais: información básica denominada doutro xeito corpus, unha algoritmo para a asimilación de información e a memoria para a súa memorización.

O algoritmo non se limita a unha carga banal de información na memoria, escanea na procura de elementos que as relacionen entre si. Unha mestura de datos e relacións transferirase á memoria que formará a modelo.

Dentro dun modelo, os datos e as relacións son completamente indistinguibles, polo que é case imposible reconstruír o corpus de información de adestramento orixinal a partir dunha rede neuronal adestrada.

Isto é especialmente certo cando os corpus conteñen grandes cantidades de datos. Este é o caso dos grandes sistemas lingüísticos coñecidos como Large Language Models (LLM para abreviar) incluíndo o infame ChatGpt. Deben a súa eficacia á gran cantidade de información utilizada na formación: na actualidade un bo adestramento require polo menos uns poucos terabytes de datos e dado que un terabyte corresponde a 90 millóns de caracteres, aproximadamente 75 millóns de páxinas de texto, é doado entender que hai tanta información necesaria.

Pero se os modelos non se poden deseñar, por que debemos preguntarnos o problema das violacións da privacidade?

Dominio dos datos

"Quen estea tolo pode pedir que o eximen das misións de voo, pero quen pida que o eximen das misións de voo non está tolo". - baseado na novela "Catch 22" de Joseph Heller.

Boletín de innovación
Non te perdas as novidades máis importantes sobre innovación. Rexístrese para recibilos por correo electrónico.

A recollida de datos de tal tamaño que permite a creación de proxectos como ChatGpt ou outros similares é hoxe prerrogativa das grandes multinacionais que, coas súas actividades dixitais, puideron poñerse nas súas mans no maior repositorio de información. no mundo: a Rede.

Google e Microsoft, que dende hai anos xestionan buscadores que exploran a Rede e extrapolan enormes cantidades de información, son os primeiros candidatos para a creación de LLM, os únicos modelos de IA capaces de dixerir cantidades de información como as descritas anteriormente.

É difícil crer que Google ou Microsoft sexan capaces de ocultar información persoal nos seus datos antes de usala como corpus para adestrar unha rede neuronal. A anonimización da información no caso dos sistemas lingüísticos tradúcese na identificación de datos persoais dentro dun corpus e a súa substitución por datos falsos. Imaxinemos un corpus do tamaño duns terabytes co que queremos adestrar un modelo e intentemos imaxinar canto traballo sería necesario para anonimizar manualmente os datos que contén: sería practicamente imposible. Pero se quixeramos confiar nun algoritmo para facelo automaticamente, o único sistema capaz de facer este traballo sería outro modelo igualmente grande e sofisticado.

Estamos ante un problema clásico de Catch-22: “para formar un LLM con datos anónimos necesitamos un LLM capaz de anonimizalos, pero se temos un LLM capaz de anonimizar os datos, a súa formación non se fixo con datos anónimos. .”

O GDPR está obsoleto

O GDPR que dicta (case) globalmente as normas de respecto á privacidade das persoas, á luz destes temas xa é unha noticia antiga e non se contempla a protección dos datos persoais implicados nun conxunto de formación.

No RGPD, o tratamento de datos persoais coa finalidade de coñecer correlacións e conexións xerais está só parcialmente regulado polo artigo 22 que establece: “O interesado ten dereito a non ser sometido a unha decisión baseada unicamente no tratamento automatizado, incluíndo a elaboración de perfiles, que lle produza efectos xurídicos ou que lle afecten de forma similar e significativa”.

Este artigo introduce a prohibición para os responsables do tratamento de utilizar os datos persoais dun suxeito como parte dun proceso de toma de decisións totalmente automatizado que teña efectos xurídicos directos sobre o suxeito. Pero as redes neuronais, facilmente asimilables aos procesos automatizados de toma de decisións, unha vez adestradas adquiren a capacidade de tomar decisións automáticas que poden impactar na vida das persoas. Pero estas decisións non sempre son "lóxicas". Durante o adestramento, de feito, cada rede neuronal aprende a asociar información entre si, a miúdo relacionándoas entre si de forma absolutamente non lineal. E a ausencia de “lóxica” non facilita o traballo ao lexislador que quere erguer un escudo en defensa da intimidade das persoas.

Se un tamén optou por aplicar unha política extremadamente restritiva, por exemplo, prohibindo o uso de calquera dato sensible a menos que o autorice expresamente o propietario, o uso legal das redes neuronais sería impracticable. E renunciar ás tecnoloxías de redes neuronais sería unha gran perda, só pensamos nos modelos de análise adestrados cos datos clínicos dos suxeitos dunha poboación que se viu parcialmente afectada por unha determinada enfermidade. Estes modelos axudan a mellorar as políticas de prevención identificando correlacións entre os elementos presentes nos datos e a propia enfermidade, correlacións inesperadas que a ollos dos médicos poden parecer completamente ilóxicas.

Xestión de necesidades

Plantear o problema de respectar a intimidade das persoas despois de autorizar indiscriminadamente a súa recollida durante anos é cando menos hipócrita. O propio GDPR coa súa complexidade é responsable de numerosas manipulacións que permiten obter autorización para tratar datos persoais aproveitando a ambigüidade das cláusulas e a dificultade de comprensión.

Necesitamos certamente unha simplificación da lei que permita a súa aplicabilidade e unha verdadeira educación no uso consciente da información persoal.

A miña proposta é non permitir que as empresas coñezan os datos persoais dos usuarios que se rexistran nos seus servizos, aínda que sexan servizos de pago. O uso de datos persoais falsos por parte dos particulares debería producirse automaticamente cando utilizan sistemas en liña. O uso de datos reais debe limitarse só ao proceso de compra, garantindo que estean sempre completamente separados da base de datos do servizo.

Coñecer os gustos e preferencias da materia sen permitir que un nome ou unha cara se asociasen a este perfil funcionaría como unha forma de anonimización realizada augas arriba que permitiría automaticamente a recollida de datos e o seu uso dentro de sistemas de automatización como as intelixencias artificiais.

Artigo de Gianfranco Fedele

Boletín de innovación
Non te perdas as novidades máis importantes sobre innovación. Rexístrese para recibilos por correo electrónico.

Artigos recentes

O futuro está aquí: como a industria do transporte marítimo está revolucionando a economía global

O sector naval é unha verdadeira potencia económica mundial, que navega cara a un mercado de 150 millóns...

1 maio 2024

Editores e OpenAI asinan acordos para regular o fluxo de información procesada pola Intelixencia Artificial

O pasado luns, o Financial Times anunciou un acordo con OpenAI. FT licencia o seu xornalismo de clase mundial...

Abril 30 2024

Pagos en liña: aquí tes como os servizos de streaming che fan pagar para sempre

Millóns de persoas pagan por servizos de streaming, pagando taxas de subscrición mensuais. É unha opinión común que vostede...

Abril 29 2024

Veeam ofrece o soporte máis completo para ransomware, desde a protección ata a resposta e a recuperación

Coveware by Veeam continuará ofrecendo servizos de resposta a incidentes de extorsión cibernética. Coveware ofrecerá capacidades forenses e de remediación...

Abril 23 2024