OpenAI je kompanija koja je razvila DALL-E program za generisanje slika i memova i moćni GPT-3 mehanizam za automatsko dovršavanje teksta. OpenAI je lansirao novu neuronsku mrežu otvorenog koda, namijenjenu transkribiranju zvuka u pisani tekst (preko TechCrunch-a).
Zove se Whisper i kompanija tvrdi da je "Algoritam robustan i precizan, sposoban da radi na ljudskom nivou na prepoznavanju engleskog govora" i da takođe može automatski prepoznati, transkribovati i prevesti druge jezike kao što su španski, italijanski i japanski.
Iako usluge zasnovane na oblaku kao što su Otter.ai i Trint rade „prilično dobro“, nakon nekih testova smo potvrdili da se rezultat svakako čini poboljšanim.
Whisper instalacija je jednostavna, dovršena pokretanjem jedne naredbe terminala. Za otprilike 10 minuta uspjeli smo upotrijebiti Whisper za transkripciju probnog zvuka koji sam snimio.
u blog post najavljujući Whisper, tim je rekao da njegov kod može "služe kao osnova za izgradnju korisnih aplikacija i za dalja istraživanja o robusnoj obradi govora"I nada se da"Visoka preciznost i jednostavnost korištenja Whispera omogućit će programerima da dodaju glasovna sučelja u mnogo širi skup aplikacija". Međutim, ovaj pristup je izvanredan: kompanija ima ograničen pristup svojim najpopularnijim projektima mašinskog učenja kao što su DALL-E ili GPT-3, navodeći želju da "saznajte više o stvarnoj upotrebi i nastavite da ponavljate naše sigurnosne sisteme . "
Da preuzmete Whisper paper, kliknite ovdje
Uporedili smo transkript koji je generisao Whisper sa istim transkriptom napravljenim sa Otter.ai i Trintom i rekli smo da rezultat nije uporediv. Sa Otter.ai-om i Trint-om imali smo nekih grešaka, a rezultat je bio potreban da bismo ga mogli koristiti, reproducirajući zvuk naravno. Umjesto toga, verzija Whispera dala je odličan rezultat, direktno upotrebljiv i objavljen.
Whisper vjerovatno neće učiniti usluge zasnovane na oblaku kao što su Otter.ai i Trint potpuno zastarjelima. Ali Whisperu nedostaje jedna od najvećih karakteristika tradicionalnih usluga transkripcije: sposobnost označavanja ko je šta rekao.
Oslanjajući se na lokalnu obradu, brzina izvršavanja zavisi od računara koji se koristi. Uzimajući u obzir da se zvuk od oko 25 minuta obrađuje sa Whisperom za oko 50 minuta, koristeći MacBook Pro M1 - to bi mogao biti nedostatak.
Međutim, OpenAI tehnologija ima veliku prednost: cijenu. Usluge pretplate zasnovane na oblaku koštat će novac ako se koriste u profesionalne svrhe. Otter.ai ima besplatni nivo, ali predstojeće promjene će ga učiniti manje korisnim za ljude koji često prepisuju stvari. Platforme kao što su Microsoft Word ili Pixel zahtijevaju plaćanje zasebnog softvera ili hardvera. Stage Whisper - i sam Whisper - je besplatan i može se pokrenuti na računaru koji već posjedujete.
OpenAI ima velika očekivanja od Whispera, s obzirom na model mašinskog učenja, koji je obučen na „680.000 sati nadziranih višejezičnih i multitasking podataka prikupljenih s weba“. Ali činjenica da danas ima praktičnu i stvarnu upotrebu čini ga još uzbudljivijim.
Ercole Palmeri: Ovisnik o inovacijama
Milioni ljudi plaćaju usluge striminga, plaćajući mjesečne pretplate. Uvriježeno je mišljenje da vi…
Coveware od strane Veeam-a će nastaviti da pruža usluge odgovora na incidente u slučaju sajber iznude. Coveware će ponuditi mogućnosti forenzike i sanacije…
Prediktivno održavanje revolucionira sektor nafte i plina, s inovativnim i proaktivnim pristupom upravljanju postrojenjima.…
UK CMA izdao je upozorenje o ponašanju Big Tech-a na tržištu umjetne inteligencije. Tamo…