Informatica

L’innovativa tecnologia di OpenAI è disponibile. L’abbiamo usata per trascrivere l’audio direttamente sul PC

OpenAI, azienda già nota per DALL-E e GPT, ha realizzato il suo sistema di riconoscimento vocale automatico, chiamato Whisper. Ricercatori e sviluppatori lo possono già testare e usare.

OpenAI è la società che ha sviluppato il programma di generazione di immagini e meme DALL-E e il potente motore di completamento automatico del testo GPT-3. OpenAI ha lanciato una nuova rete neurale open source, destinata a trascrivere l’audio in testo scritto (tramite TechCrunch).

Si chiama Whisper e la società afferma che “L’algoritmo è robusto e preciso, in grado di lavorare a livello umano sul riconoscimento vocale inglese” e che può anche riconoscere, trascrivere e tradurre automaticamente altre lingue come spagnolo, italiano e giapponese.

Sebbene i servizi basati su cloud come Otter.ai e Trint funzionino “abbastanza bene”, dopo alcune prove abbiamo verificato che il risultato appare sicuramente migliorabile.

Whisper

L’installazione di Whisper è facile, si completa eseguendo un singolo comando da Terminale. In 10 minuti circa, siamo stati in grado di utilizzare Whisper per trascrivere un audio di prova che avevo registrato.

Nel post sul blog che annuncia Whisper, il team ha affermato che il suo codice potrebbe “servire come base per la creazione di applicazioni utili e per ulteriori ricerche su un’elaborazione vocale robusta” e spera che “l’elevata precisione e facilità d’uso di Whisper consentiranno agli sviluppatori di aggiungere interfacce vocali a un insieme molto più ampio di applicazioni”. Questo approccio è notevole, tuttavia: l’azienda ha accesso limitato ai suoi progetti di apprendimento automatico più popolari come DALL-E o GPT-3, citando il desiderio di “imparare di più sull’uso nel mondo reale e continuare a ripetere i nostri sistemi di sicurezza .”

Per scaricare il paper di Whisper, clicca qui

a confronto con Trint e Otter.ai

Abbiamo confrontato una trascrizione generata da Whisper con la medesima fatta con Otter.ai e Trint e direti che il risultato non è comparabile. Con Otter.ai e Trint abbiamo avuto alcuni errori, e il risultato aveva bisogno di correzioni per poterlo usare, riascoltando l’audio ovviamente. La versione di Whisper invece ha prodotto un risultato ottimo, direttamente utilizzabile e pubblicabile.

Newsletter sull’Innovazione
Non perderti le notizie più importanti sull'Innovazione. Iscriviti per riceverle via e-mail.

Whisper probabilmente non renderà del tutto obsoleti servizi basati su cloud come Otter.ai e Trint. Whisper però manca di una delle più grandi caratteristiche dei servizi di trascrizione tradizionali: essere in grado di etichettare chi ha detto cosa.

Basandosi su elaborazione locale, la velocità di esecuzione dipende dal computer utilizzato. Considerando che un audio di circa 25 minuti, viene elaborato con Whisper in circa 50 minuti, utilizzando un MacBook Pro M1: questo potrebbe essere uno svantaggio.

Costi

Tuttavia, la tecnologia di OpenAI ha un grande vantaggio: il prezzo. I servizi di abbonamento basati su cloud avranno un costo se utilizzati con scopi professionali. Otter.ai ha un livello gratuito, ma le modifiche imminenti lo renderanno meno utile per le persone che trascrivono frequentemente le cose. Piattaforme come Microsoft Word o Pixel richiedono il pagamento di software o hardware separati. Stage Whisper – e Whisper stesso – è gratuito e può essere eseguito sul computer che già possiedi.

Concludendo

OpenAI ha grandi aspettative per Whisper, considerando il modello di apprendimento automatico, che è stato addestrato su “680.000 ore di dati supervisionati multilingue e multitasking raccolti dal web”. Ma il fatto che oggi abbia anche un uso pratico e reale lo rende ancora più eccitante.

Ercole Palmeri: Innovation addicted


​  

Newsletter sull’Innovazione
Non perderti le notizie più importanti sull'Innovazione. Iscriviti per riceverle via e-mail.

Articoli recenti

Come usare le visualizzazioni e il layout in PowerPoint

Microsoft PowerPoint fornisce diversi tipi di strumenti per rendere le presentazioni fruibili, interattive e adatte a diversi scopi. Gli strumenti…

20 Maggio 2024

Apprendimento automatico: confronto tra Random Forest e albero decisionale

Nel mondo del machine learning, sia gli algoritmi random forest che decision tree svolgono un ruolo fondamentale nella categorizzazione e…

17 Maggio 2024

Come migliorare le presentazioni Power Point, consigli utili

Esistono molti suggerimenti e trucchi per fare ottime presentazioni. L'obiettivo di queste regola è di migliorare l'efficacia, la scorrevolezza di…

16 Maggio 2024

È ancora la velocità la leva nello sviluppo dei prodotti, secondo il report di Protolabs

Pubblicato il rapporto "Protolabs Product Development Outlook". Esamina le modalità in cui oggi vengono portati i nuovi prodotti sul mercato.…

16 Maggio 2024

I quattro pilastri della Sostenibilità

Il termine sostenibilità è oramai molto usato per indicare programmi, iniziative e azioni finalizzate alla preservazione di una particolare risorsa.…

15 Maggio 2024

Come consolidare i dati in Excel

Una qualsiasi operazione aziendale produce moltissimi dati, anche in forme diverse. Inserire manualmente questi dati da un foglio Excel a…

14 Maggio 2024

Analisi trimestrale Cisco Talos: mail aziendali nel mirino dei criminali Manifatturiero, Istruzione e Sanità i settori più colpiti

La compromissione delle mail aziendali sono aumentate nei primi tre mesi del 2024 più del doppio rispetto all’ultimo trimestre del…

14 Maggio 2024

Principio di segregazione dell’interfaccia (ISP), quarto principio S.O.L.I.D.

Il principio di segregazione dell'interfaccia è uno dei cinque principi SOLID della progettazione orientata agli oggetti. Una classe dovrebbe avere…

14 Maggio 2024

Leggi Innovazione nella tua Lingua

Newsletter sull’Innovazione
Non perderti le notizie più importanti sull'Innovazione. Iscriviti per riceverle via e-mail.

Seguici