Foto, video, audio: l’intelligenza artificiale sta imparando a replicare la realtà
Tutto è iniziato con il generatore di testi GPT-3, di Open AI: oggi, l’IA è in grado di creare anche immagini, statiche e in movimento, e suoni. Ma non mancano i rischi, dal copyright alle fake news
Tutto è iniziato con il generatore di testi GPT-3, di Open AI: oggi, l’IA è in grado di creare anche immagini, statiche e in movimento, e suoni. Ma non mancano i rischi, dal copyright alle fake news
Tutto è iniziato con il generatore di testi GPT-3, di Open AI: oggi, l’IA è in grado di creare anche immagini, statiche e in movimento, e suoni. Ma non mancano i rischi, dal copyright alle fake news
Il periodo a cavallo tra settembre e ottobre è quello delle Fashion Week, in particolare a Milano e Parigi. Quest’anno, subito dopo i due appuntamenti più attesi della stagione, è iniziato un altro genere di settimana della moda, tutta digitale. È l’AI Fashion Week, promossa da un account Instagram che si chiama @dailydall.e e che lavora in collaborazione con Open AI, l’azienda di intelligenza artificiale voluta da Sam Altaman ed Elon Musk. Ogni giorno viene pubblicata una serie di 4 fotografie, con altrettanti outfit degli stilisti più famosi, da Paco Rabanne a Givenchy.
Il punto è che quegli abiti non li ha disegnati nessuno. Li ha creati, a partire da un testo, un’intelligenza artificiale. In questo caso, è stato utilizzato Dall-E 2, il sistema di Open AI in grado di trasformare le parole in immagini, ma ci sono anche Stable Diffusion, Midjourney o Imagen di Google. E le nuove frontiere sono la creazione di video e suoni. Poche parole, una semplice descrizione, per iniziare a vedere animazioni o ascoltare suoni.
Gli investimenti spingono l’evoluzione dell’IA
Per sintetizzare, in poco più di due anni siamo passati dalla generazione di semplici righe di testo a quella di video. E non è finita: il 30 settembre, Felix Krause, ricercatore di Meta, ha annunciato lo sviluppo di un generatore di suoni. Un sistema che, proprio come gli altri, è in grado di creare audio a partire da una richiesta testuale.
Una crescita rapida, forse imprevista, spinta da evoluzioni nell’hardware e dagli investimenti monstre di Big Tech. Secondo un articolo del Wall Street Journal, le divisioni ricerca e sviluppo delle sole Meta e Alphabet hanno speso oltre 60 miliardi di dollari in questo campo nel solo 2021. Investimenti che hanno consolidato un’evoluzione, che permette ora alle macchine di imparare più velocemente, con meno dati a disposizione e, soprattutto, di mettere in relazione con maggiore efficacia parole e immagini o suoni.
Avanzamenti tecnologici che hanno aperto strade nuove. Basti pensare alla diffusione, la tecnica che viene utilizzata per creare immagini, statiche o in movimento. L’intelligenza artificiale riceve in input milioni di immagini da tutta Internet, etichettate con una descrizione. A quel punto, le scompone in migliaia di pixel che, a partire dalle richieste degli utenti, vengono poi rimessi in relazione, per creare una nuova immagine. Non c’è semplice sovrapposizione di foto e illustrazioni esistenti: è un processo generativo. Parte da un insieme di pixel e li rifinisce fino a creare qualcosa di nuovo.
Rischi e benefici: che cosa succederà?
Insieme alle evoluzioni tecniche, ci sono poi le scelte commerciali e politiche. Se Open AI ha scelto per Dall-E 2 un rilascio lento, con una lunghissima lista d’attesa, questa estate Stability AI ha cambiato le carte in tavola con Stable Diffusion. Questo modello di generazione immagini è infatti stato reso disponibile a tutti, codice compreso. È questa una delle ragioni che stanno spingendo la democratizzazione di questi sistemi.
Una democratizzazione che, senza dubbio, creerà una serie di questioni da risolvere. Ci sono, per esempio, le polemiche sul possesso delle immagini che vengono generate. Al momento, tutto dipende dal servizio: quelle generate su Midjourney, per esempio, sono interamente nelle disponibilità dell’utente; quelle con Dall-E 2 restano di proprietà di Open AI.
Un altro punto riguarda il copyright delle immagini che sono state utilizzate per nutrire quei sistemi. In altri termini, qualunque opera d’arte caricata su Internet negli ultimi anni potrebbe essere stata utilizzata come base per l’addestramento di queste IA. E quindi, oggi, questi artisti umani si troverebbero a competere con macchine in grado di replicare il loro stile.
E non è tutto: a fare paura sono anche i pericoli nella generazione di immagini o video che, per esempio, ritraggono persone in situazioni realistiche. Il rischio sono le fake news: la disponibilità di immagini, come evidenziato anche dai ricercatori della Penn State University, influisce molto sulla credibilità delle notizie false. Mentre molti sistemi hanno filtri per le creazioni che ritraggono volti o situazioni considerate sconvenienti, Stable Diffusion di Stability.AI, come sottolineato anche in un articolo su The Verge, permetterebbe agli utenti più esperti di generare qualunque tipo di immagine. Compresa la pornografia.
Fonte Italian.Tech