Informatica

Dostupna je inovativna OpenAI tehnologija. Koristili smo ga za transkripciju zvuka direktno na PC

OpenAI, kompanija već poznata po DALL-E i GPT-u, kreirala je svoj sistem za automatsko prepoznavanje govora, nazvan Whisper. Istraživači i programeri ga već mogu testirati i koristiti.

OpenAI je kompanija koja je razvila DALL-E program za generisanje slika i memova i moćni GPT-3 mehanizam za automatsko dovršavanje teksta. OpenAI je lansirao novu neuronsku mrežu otvorenog koda, namijenjenu transkribiranju zvuka u pisani tekst (preko TechCrunch-a).

Zove se Whisper i kompanija tvrdi da je "Algoritam robustan i precizan, sposoban da radi na ljudskom nivou na prepoznavanju engleskog govora" i da takođe može automatski prepoznati, transkribovati i prevesti druge jezike kao što su španski, italijanski i japanski.

Iako usluge zasnovane na oblaku kao što su Otter.ai i Trint rade „prilično dobro“, nakon nekih testova smo potvrdili da se rezultat svakako čini poboljšanim.

Šapak

Whisper instalacija je jednostavna, dovršena pokretanjem jedne naredbe terminala. Za otprilike 10 minuta uspjeli smo upotrijebiti Whisper za transkripciju probnog zvuka koji sam snimio.

u blog post najavljujući Whisper, tim je rekao da njegov kod može "služe kao osnova za izgradnju korisnih aplikacija i za dalja istraživanja o robusnoj obradi govora"I nada se da"Visoka preciznost i jednostavnost korištenja Whispera omogućit će programerima da dodaju glasovna sučelja u mnogo širi skup aplikacija". Međutim, ovaj pristup je izvanredan: kompanija ima ograničen pristup svojim najpopularnijim projektima mašinskog učenja kao što su DALL-E ili GPT-3, navodeći želju da "saznajte više o stvarnoj upotrebi i nastavite da ponavljate naše sigurnosne sisteme . "

Da preuzmete Whisper paper, kliknite ovdje

u poređenju sa Trint i Otter.ai

Uporedili smo transkript koji je generisao Whisper sa istim transkriptom napravljenim sa Otter.ai i Trintom i rekli smo da rezultat nije uporediv. Sa Otter.ai-om i Trint-om imali smo nekih grešaka, a rezultat je bio potreban da bismo ga mogli koristiti, reproducirajući zvuk naravno. Umjesto toga, verzija Whispera dala je odličan rezultat, direktno upotrebljiv i objavljen.

Inovacijski bilten
Ne propustite najvažnije vijesti o inovacijama. Prijavite se da ih primate putem e-pošte.

Whisper vjerovatno neće učiniti usluge zasnovane na oblaku kao što su Otter.ai i Trint potpuno zastarjelima. Ali Whisperu nedostaje jedna od najvećih karakteristika tradicionalnih usluga transkripcije: sposobnost označavanja ko je šta rekao.

Oslanjajući se na lokalnu obradu, brzina izvršavanja zavisi od računara koji se koristi. Uzimajući u obzir da se zvuk od oko 25 minuta obrađuje sa Whisperom za oko 50 minuta, koristeći MacBook Pro M1 - to bi mogao biti nedostatak.

troškovi

Međutim, OpenAI tehnologija ima veliku prednost: cijenu. Usluge pretplate zasnovane na oblaku koštat će novac ako se koriste u profesionalne svrhe. Otter.ai ima besplatni nivo, ali predstojeće promjene će ga učiniti manje korisnim za ljude koji često prepisuju stvari. Platforme kao što su Microsoft Word ili Pixel zahtijevaju plaćanje zasebnog softvera ili hardvera. Stage Whisper - i sam Whisper - je besplatan i može se pokrenuti na računaru koji već posjedujete.

U zakljucku

OpenAI ima velika očekivanja od Whispera, s obzirom na model mašinskog učenja, koji je obučen na „680.000 sati nadziranih višejezičnih i multitasking podataka prikupljenih s weba“. Ali činjenica da danas ima praktičnu i stvarnu upotrebu čini ga još uzbudljivijim.

Ercole Palmeri: Ovisnik o inovacijama


​  

Inovacijski bilten
Ne propustite najvažnije vijesti o inovacijama. Prijavite se da ih primate putem e-pošte.

Nedavni članak

Online plaćanja: Evo kako vas usluge striminga čine da plaćate zauvijek

Milioni ljudi plaćaju usluge striminga, plaćajući mjesečne pretplate. Uvriježeno je mišljenje da vi…

29 april 2024

Veeam nudi najsveobuhvatniju podršku za ransomware, od zaštite do odgovora i oporavka

Coveware od strane Veeam-a će nastaviti da pruža usluge odgovora na incidente u slučaju sajber iznude. Coveware će ponuditi mogućnosti forenzike i sanacije…

23 april 2024

Zelena i digitalna revolucija: Kako prediktivno održavanje transformira industriju nafte i plina

Prediktivno održavanje revolucionira sektor nafte i plina, s inovativnim i proaktivnim pristupom upravljanju postrojenjima.…

22 april 2024

Britanski antimonopolski regulator podigao je BigTech uzbunu zbog GenAI

UK CMA izdao je upozorenje o ponašanju Big Tech-a na tržištu umjetne inteligencije. Tamo…

18 april 2024