OpenAI — це компанія, яка розробила програму створення зображень і мемів DALL-E, а також потужний механізм автозаповнення тексту GPT-3. OpenAI запустив нову нейронну мережу з відкритим кодом, призначену для транскрипції аудіо в письмовий текст (через TechCrunch).
Він називається Whisper, і компанія стверджує, що «алгоритм надійний і точний, здатний працювати на рівні людини з розпізнаванням англійської мови», а також може автоматично розпізнавати, транскрибувати та перекладати інші мови, такі як іспанська, італійська та японська.
Хоча хмарні служби, такі як Otter.ai і Trint, працюють «досить добре», після деяких тестів ми переконалися, що результат, безумовно, покращився.
Встановлення Whisper просте, завершується виконанням однієї команди терміналу. Приблизно через 10 хвилин ми змогли використати Whisper для транскрибування тестового аудіо, яке я записав.
Nel допис у блозі анонсуючи Whisper, команда сказала, що його код може "служать основою для створення корисних програм і для подальших досліджень надійної обробки мови«І сподівається, що»Висока точність і простота використання Whisper дозволять розробникам додавати голосові інтерфейси до значно ширшого набору програм". Однак цей підхід чудовий: компанія має обмежений доступ до своїх найпопулярніших проектів машинного навчання, таких як DALL-E або GPT-3, посилаючись на бажання "дізнайтеся більше про використання в реальному світі та продовжуйте повторювати наші системи безпеки ».
Щоб завантажити документ Whisper, натисніть тут
Ми порівняли розшифровку, згенеровану Whisper, із такою ж, зробленою за допомогою Otter.ai і Trint, і стверджуємо, що результат не порівнянний. З Otter.ai і Trint у нас були деякі помилки, і результат потребував виправлень, щоб мати можливість використовувати його, відтворюючи аудіо, звичайно. Натомість версія Whisper дала чудовий результат, придатний для безпосереднього використання та публікації.
Ймовірно, Whisper не зробить хмарні сервіси, такі як Otter.ai і Trint, повністю застарілими. Але Whisper не має однієї з найбільших характеристик традиційних служб транскрипції: можливості позначати, хто що сказав.
Покладаючись на локальну обробку, швидкість виконання залежить від використовуваного комп’ютера. Враховуючи, що аудіо тривалістю близько 25 хвилин обробляється за допомогою Whisper приблизно за 50 хвилин, використовуючи MacBook Pro M1, це може бути недоліком.
Однак у технології OpenAI є велика перевага: ціна. Хмарні послуги підписки коштуватимуть грошей, якщо використовувати їх у професійних цілях. Otter.ai має безкоштовний рівень, але майбутні зміни зроблять його менш корисним для людей, які часто транскрибують речі. Такі платформи, як Microsoft Word або Pixel, вимагають оплати за окреме програмне чи апаратне забезпечення. Stage Whisper — і сам Whisper — є безкоштовним і його можна запускати на комп’ютері, який у вас уже є.
OpenAI покладає великі очікування на Whisper, враховуючи модель машинного навчання, яка була навчена на «680.000 XNUMX годин контрольованих багатомовних і багатозадачних даних, зібраних з Інтернету». Але той факт, що він також має практичне та реальне застосування сьогодні, робить його ще більш захоплюючим.
Ercole Palmeri: Пристрасть до інновацій
Розвиток дрібної моторики за допомогою розфарбовування готує дітей до більш складних навичок, таких як письмо. Розфарбувати…
Військово-морський сектор є справжньою глобальною економічною силою, яка просунулася до 150-мільярдного ринку...
Минулого понеділка Financial Times оголосила про угоду з OpenAI. FT ліцензує свою журналістику світового рівня…
Мільйони людей оплачують потокові послуги, сплачуючи щомісячну абонентську плату. Поширена думка, що ви…