Kunstig intelligens

Bilder, videoer, lyd: kunstig intelligens lærer å gjenskape virkeligheten

Det hele startet med Open AIs GPT-3 tekstgenerator: i dag kan AI også lage stillbilder og bevegelige bilder og lyder. Men det mangler ikke på risiko, fra opphavsrett tilfalske nyheter

Perioden mellom september og oktober er den av Fashion Week, spesielt i Milano og Paris. I år, rett etter sesongens to mest etterlengtede hendelser, har en annen slags moteuke begynt, helt digital. Det er AI-moteuken, promotert av en Instagram-konto kalt @ dailydall.ee som jobber i samarbeid med Open AI, det kunstige intelligensselskapet ettersøkt av Sam Altaman og Elon Musk. Hver dag publiseres en serie på 4 fotografier, med like mange antrekk av de mest kjente designerne, fra Paco Rabanne til Givenchy.

Poenget er at ingen har designet de klærne. En kunstig intelligens skapte dem fra en tekst. I dette tilfellet ble det brukt Dall-E 2, Open AI-systemet i stand til å transformere ord til bilder, men det finnes også Stable Diffusion, Midjourney eller Imagen fra Google. Og de nye grensene er å lage video og lyd. Noen få ord, en enkel beskrivelse, for å begynne å se animasjoner eller lytte til lyder.

Investeringer driver utviklingen av AI

For å oppsummere, på litt over to år har vi gått fra å generere enkle tekstlinjer til å generere videoer. Og det er ikke alt: 30. september, Felix Krause, Metaforsker, annonserte utviklingen av en lydgenerator. Et system som, akkurat som de andre, er i stand til å lage lyd fra en tekstforespørsel.

Rask vekst, kanskje uventet, drevet av utviklingen i maskinvare og av de monstrøse investeringene til Big Tech. Ifølge en artikkel i Wall Street Journal, forsknings- og utviklingsdivisjonene av Meta og Alphabet alene brukte over 60 milliarder dollar på dette feltet alene i 2021. Investeringer som har konsolidert en utvikling som nå lar maskiner lære raskere, med mindre tilgjengelig data og fremfor alt å relatere ord og bilder eller lyder mer effektivt.

Teknologiske fremskritt som har åpnet nye veier. Bare tenk på diffusjon, teknikken som brukes til å lage statiske eller bevegelige bilder. Kunstig intelligens mottar millioner av bilder fra hele Internett som input, merket med en beskrivelse. På det tidspunktet bryter den dem ned i tusenvis av piksler som, fra brukerforespørsler, deretter kobles til igjen for å lage et nytt bilde. Det er ingen enkel overlegg av eksisterende bilder og illustrasjoner: det er en generativ prosess. Det starter med et sett med piksler og foredler dem for å skape noe nytt.

Risikoer og fordeler: Hva vil skje?

Sammen med de tekniske utviklingene er det også kommersielle og politiske valg. Hvis Open AI har valgt en langsom utgivelse for Dall-E 2, med veldig lang venteliste, denne sommeren Stabilitet AI har endret kortene på bordet med stabil diffusjon. Denne bildegenereringsmodellen har faktisk blitt gjort tilgjengelig for alle, inkludert koden. Dette er en av grunnene som presser frem demokratiseringen av disse systemene.

En demokratisering som utvilsomt vil skape en rekke spørsmål som skal løses. Det er for eksempel kontrovers om besittelse av bilder som genereres. For øyeblikket avhenger alt av tjenesten: de som genereres på Midjourney, for eksempel, er helt tilgjengelige for brukeren; de med Dall-E 2 forblir eiendommen til Open AI.

Et annet punkt gjelder copyright av bildene som ble brukt til å mate disse systemene. Med andre ord, ethvert kunstverk som er lastet opp til Internett de siste årene kunne vært brukt som grunnlag for opplæring av disse AI-ene. Og derfor vil disse menneskelige kunstnerne i dag finne seg i å konkurrere med maskiner som er i stand til å gjenskape stilen deres.

Og det er ikke alt: Farene ved generering av bilder eller videoer som for eksempel fremstiller mennesker i realistiske situasjoner, er også skremmende. Risikoen er der falske nyheter: tilgjengeligheten av bilder, som f.eks også fremhevet av forskere fra Penn State University, påvirker i stor grad troverdigheten til falske nyheter. Mens mange systemer har opprettelsesfiltre som skildrer ansikter eller situasjoner som anses som upassende, Stabil diffusjon av Stability.AI, som også påpekt i en artikkel på The Verge, ville tillate mer erfarne brukere å generere alle typer bilder. Inkludert pornografi.

â € <

Drafting BlogInnovazione.it