Foto's, video's, audio: kunstmatige intelligentie leert de werkelijkheid na te bootsen

Het begon allemaal met de GPT-3 tekstgenerator van Open AI: tegenwoordig kan AI ook stilstaande en bewegende beelden en geluiden maken. Maar aan risico's geen gebrek, van copyright totnep nieuws

De periode tussen september en oktober is die van Fashion Week, vooral in Milaan en Parijs. Dit jaar, direct na de twee meest verwachte evenementen van het seizoen, is er weer een soort modeweek begonnen, allemaal digitaal. Het is de AI Fashion Week, gepromoot door een Instagram-account genaamd @ dailydall.ee dat samenwerkt met Open AI, het kunstmatige intelligentiebedrijf gezocht door Sam Altaman en Elon Musk. Elke dag verschijnt er een serie van 4 foto's, met evenveel outfits van de meest bekende ontwerpers, van Paco Rabanne tot Givenchy.

Het punt is dat niemand die kleren heeft ontworpen. Een kunstmatige intelligentie creëerde ze op basis van een tekst. In dit geval werd het gebruikt Dall-E 2, het Open AI-systeem in staat om woorden om te zetten in afbeeldingen, maar er zijn ook Stable Diffusion, Midjourney of Imagen van Google. En de nieuwe grenzen zijn de creatie van video en geluid. Een paar woorden, een eenvoudige beschrijving, om animaties te zien of naar geluiden te luisteren.

Investeringen sturen de evolutie van AI

Samenvattend: in iets meer dan twee jaar zijn we van het genereren van eenvoudige tekstregels naar het genereren van video's gegaan. En dat is nog niet alles: op 30 september Felix Krause, Meta-onderzoeker, kondigde de ontwikkeling van een geluidsgenerator aan. Een systeem dat net als de anderen audio kan creëren vanaf een tekstueel verzoek.

Snelle groei, misschien onverwacht, gedreven door evoluties in hardware en door de monsterlijke investeringen van Big Tech. Volgens een artikel in de Wall Street Journal, de onderzoeks- en ontwikkelingsdivisies alleen al van Meta en Alphabet hebben meer dan 60 miljard dollar op dit gebied uitgegeven in 2021. Investeringen die een evolutie hebben geconsolideerd, waardoor machines nu kunnen leren sneller, met minder beschikbare data en vooral om woorden en beelden of geluiden beter met elkaar in verband te brengen.

Technologische vooruitgang die nieuwe wegen heeft geopend. Denk maar aan diffusie, de techniek waarmee statische of bewegende beelden worden gemaakt. Kunstmatige intelligentie ontvangt miljoenen afbeeldingen van internet als invoer, voorzien van een beschrijving. Op dat moment splitst het ze op in duizenden pixels die, uitgaande van gebruikersverzoeken, vervolgens opnieuw worden verbonden om een nieuwe afbeelding te creëren. Er is geen eenvoudige overlay van bestaande foto's en illustraties: het is een generatief proces. Het begint met een set pixels en verfijnt ze om iets nieuws te creëren.

Risico's en voordelen: wat gebeurt er?

Naast de technische evoluties zijn er ook commerciële en politieke keuzes. Als Open AI heeft gekozen voor een langzame release voor Dall-E 2, met een zeer lange wachtlijst, deze zomer Stabiliteit AI heeft de kaarten op tafel veranderd met stabiele diffusie. Dit model voor het genereren van afbeeldingen is in feite voor iedereen beschikbaar gesteld, inclusief de code. Dit is een van de redenen die de democratisering van deze systemen stimuleren.

Een democratisering die ongetwijfeld zal leiden tot een reeks vragen die moeten worden opgelost. Er zijn bijvoorbeeld de controverse over bezit van afbeeldingen die worden gegenereerd. Op dit moment hangt alles af van de dienst: die gegenereerd op bijvoorbeeld Midjourney zijn volledig beschikbaar voor de gebruiker; die met Dall-E 2 blijven eigendom van Open AI.

Een ander punt betreft de auteursrecht van de afbeeldingen die werden gebruikt om die systemen te voeden. Met andere woorden, elk kunstwerk dat de afgelopen jaren naar internet is geüpload, had kunnen worden gebruikt als basis voor het trainen van deze AI's. En daarom zouden deze menselijke kunstenaars tegenwoordig concurreren met machines die hun stijl kunnen nabootsen.

En dat is niet alles: de gevaren bij het genereren van afbeeldingen of video's die bijvoorbeeld mensen in realistische situaties portretteren, zijn ook eng. Het risico is er nep-nieuws: de beschikbaarheid van afbeeldingen, zoals: ook gemarkeerd door Onderzoekers van de Penn State University, heeft grote invloed op de geloofwaardigheid van nepnieuws. Hoewel veel systemen creatiefilters hebben die gezichten of situaties weergeven die als ongepast worden beschouwd, Stabiele diffusie door Stability.AI, zoals ook opgemerkt in een artikel op The Verge, zou meer ervaren gebruikers in staat stellen om elk type afbeelding te genereren. Inclusief pornografie.

Het opstellen BlogInnovazione.it