Informatica

L’innovativa tecnologia di OpenAI è disponibile. L’abbiamo usata per trascrivere l’audio direttamente sul PC

OpenAI, azienda già nota per DALL-E e GPT, ha realizzato il suo sistema di riconoscimento vocale automatico, chiamato Whisper. Ricercatori e sviluppatori lo possono già testare e usare.

OpenAI è la società che ha sviluppato il programma di generazione di immagini e meme DALL-E e il potente motore di completamento automatico del testo GPT-3. OpenAI ha lanciato una nuova rete neurale open source, destinata a trascrivere l’audio in testo scritto (tramite TechCrunch).

Si chiama Whisper e la società afferma che “L’algoritmo è robusto e preciso, in grado di lavorare a livello umano sul riconoscimento vocale inglese” e che può anche riconoscere, trascrivere e tradurre automaticamente altre lingue come spagnolo, italiano e giapponese.

Sebbene i servizi basati su cloud come Otter.ai e Trint funzionino “abbastanza bene”, dopo alcune prove abbiamo verificato che il risultato appare sicuramente migliorabile.

Whisper

L’installazione di Whisper è facile, si completa eseguendo un singolo comando da Terminale. In 10 minuti circa, siamo stati in grado di utilizzare Whisper per trascrivere un audio di prova che avevo registrato.

Nel post sul blog che annuncia Whisper, il team ha affermato che il suo codice potrebbe “servire come base per la creazione di applicazioni utili e per ulteriori ricerche su un’elaborazione vocale robusta” e spera che “l’elevata precisione e facilità d’uso di Whisper consentiranno agli sviluppatori di aggiungere interfacce vocali a un insieme molto più ampio di applicazioni”. Questo approccio è notevole, tuttavia: l’azienda ha accesso limitato ai suoi progetti di apprendimento automatico più popolari come DALL-E o GPT-3, citando il desiderio di “imparare di più sull’uso nel mondo reale e continuare a ripetere i nostri sistemi di sicurezza .”

Per scaricare il paper di Whisper, clicca qui

a confronto con Trint e Otter.ai

Abbiamo confrontato una trascrizione generata da Whisper con la medesima fatta con Otter.ai e Trint e direti che il risultato non è comparabile. Con Otter.ai e Trint abbiamo avuto alcuni errori, e il risultato aveva bisogno di correzioni per poterlo usare, riascoltando l’audio ovviamente. La versione di Whisper invece ha prodotto un risultato ottimo, direttamente utilizzabile e pubblicabile.

Articoli correlati

Newsletter sull’Innovazione
Non perderti le notizie più importanti sull'Innovazione. Iscriviti per riceverle via e-mail.

Whisper probabilmente non renderà del tutto obsoleti servizi basati su cloud come Otter.ai e Trint. Whisper però manca di una delle più grandi caratteristiche dei servizi di trascrizione tradizionali: essere in grado di etichettare chi ha detto cosa.

Basandosi su elaborazione locale, la velocità di esecuzione dipende dal computer utilizzato. Considerando che un audio di circa 25 minuti, viene elaborato con Whisper in circa 50 minuti, utilizzando un MacBook Pro M1: questo potrebbe essere uno svantaggio.

Costi

Tuttavia, la tecnologia di OpenAI ha un grande vantaggio: il prezzo. I servizi di abbonamento basati su cloud avranno un costo se utilizzati con scopi professionali. Otter.ai ha un livello gratuito, ma le modifiche imminenti lo renderanno meno utile per le persone che trascrivono frequentemente le cose. Piattaforme come Microsoft Word o Pixel richiedono il pagamento di software o hardware separati. Stage Whisper – e Whisper stesso – è gratuito e può essere eseguito sul computer che già possiedi.

Concludendo

OpenAI ha grandi aspettative per Whisper, considerando il modello di apprendimento automatico, che è stato addestrato su “680.000 ore di dati supervisionati multilingue e multitasking raccolti dal web”. Ma il fatto che oggi abbia anche un uso pratico e reale lo rende ancora più eccitante.

Ercole Palmeri: Innovation addicted


​  

Newsletter sull’Innovazione
Non perderti le notizie più importanti sull'Innovazione. Iscriviti per riceverle via e-mail.

Articoli recenti

Nasce Nim, l’Osservatorio del Nord-Est sull’economia dell’innovazione

Nasce l’Osservatorio del Nordest sull’economia dell’Innovazione Nim, (Numbers Innovation Motion) è un progetto di Galileo Visionary District realizzato in collaborazione…

7 Dicembre 2023

Innovazione del Content Marketing con Memory e Personality

ASKtoAI lancia le innovative funzionalità Memory e Personality, strumenti d'avanguardia per la creazione di contenuti digitali che promettono di migliorare…

6 Dicembre 2023

Discuss apre una nuova era di ricerca qualitativa con GenAI ampliata e innovazione asincrona

Discuss , la piattaforma leader appositamente creata per trasformare le esperienze in insight, ha potenziato le sue capacità di scalare la…

6 Dicembre 2023

Unwrapping Innovation: Blue Lake Packaging annuncia un’alternativa a base di fibra e priva di plastica al nastro e ai dispenser tradizionali

Con le festività che si avvicinano rapidamente, Blue Lake Packaging è entusiasta di offrire un'alternativa ecologica al nastro da imballaggio…

6 Dicembre 2023

Riepilogo del Netlogistik Innovation Day: trasformazione digitale della catena del freddo, innovazioni nel riciclaggio e leadership nella supply chain

Netlogistik , leader in potenti servizi che guidano le aziende verso la trasformazione digitale della catena di fornitura, ha recentemente tenuto…

6 Dicembre 2023

Lattice collabora con NVIDIA per accelerare l’IA edge

Annuncia una soluzione integrata che combina FPGA di Lattice a bassa potenza e bassa latenza con la piattaforma NVIDIA Orin…

6 Dicembre 2023

Evoluzione del tessile: il progetto TEPP della Taiwan Textile Federation ispira l’innovazione sostenibile oltre il 2023

Con un successo clamoroso, il Textile Export Promotion Project (TEPP), guidato dalla Taiwan Textile Federation nel 2023, ha messo in…

5 Dicembre 2023

Lattice continua la rapida espansione del portafoglio di prodotti che rende possibile la prossima era dell’innovazione

Lattice presenta i nuovi FPGA mid-range Lattice Avant-G e Lattice Avant-X, stack di soluzioni specifiche per le applicazioni ampliate e…

5 Dicembre 2023

Scopri di più sulla gestione della conoscenza e sull’innovazione per gli studi legali con un nuovo trattato scritto da esperti

Innovazione per i professionisti della gestione della conoscenza e dell'innovazione (KM&I). Nel settore legale è ora disponibile un riferimento completo…

5 Dicembre 2023

La Fondazione Eclipse lancia il gruppo di lavoro Eclipse Dataspace per promuovere l’innovazione globale nella condivisione affidabile dei dati

La Eclipse Foundation , una delle più grandi fondazioni di software open source al mondo, ha annunciato oggi la formazione dell'Eclipse…

5 Dicembre 2023