Доступна інноваційна технологія OpenAI. Ми використовували його для транскрибування аудіо безпосередньо на ПК

OpenAI, компанія, яка вже відома завдяки DALL-E та GPT, створила свою автоматичну систему розпізнавання мовлення під назвою Whisper. Дослідники та розробники вже можуть тестувати та використовувати його.

OpenAI — це компанія, яка розробила програму створення зображень і мемів DALL-E, а також потужний механізм автозаповнення тексту GPT-3. OpenAI запустив нову нейронну мережу з відкритим кодом, призначену для транскрипції аудіо в письмовий текст (через TechCrunch).

Він називається Whisper, і компанія стверджує, що «алгоритм надійний і точний, здатний працювати на рівні людини з розпізнаванням англійської мови», а також може автоматично розпізнавати, транскрибувати та перекладати інші мови, такі як іспанська, італійська та японська.

Хоча хмарні служби, такі як Otter.ai і Trint, працюють «досить добре», після деяких тестів ми переконалися, що результат, безумовно, покращився.

Шепіт

Встановлення Whisper просте, завершується виконанням однієї команди терміналу. Приблизно через 10 хвилин ми змогли використати Whisper для транскрибування тестового аудіо, яке я записав.

Nel допис у блозі анонсуючи Whisper, команда сказала, що його код може "служать основою для створення корисних програм і для подальших досліджень надійної обробки мови«І сподівається, що»Висока точність і простота використання Whisper дозволять розробникам додавати голосові інтерфейси до значно ширшого набору програм". Однак цей підхід чудовий: компанія має обмежений доступ до своїх найпопулярніших проектів машинного навчання, таких як DALL-E або GPT-3, посилаючись на бажання "дізнайтеся більше про використання в реальному світі та продовжуйте повторювати наші системи безпеки ».

Щоб завантажити документ Whisper, натисніть тут

порівняно з Trint і Otter.ai

Ми порівняли розшифровку, згенеровану Whisper, із такою ж, зробленою за допомогою Otter.ai і Trint, і стверджуємо, що результат не порівнянний. З Otter.ai і Trint у нас були деякі помилки, і результат потребував виправлень, щоб мати можливість використовувати його, відтворюючи аудіо, звичайно. Натомість версія Whisper дала чудовий результат, придатний для безпосереднього використання та публікації.

Ймовірно, Whisper не зробить хмарні сервіси, такі як Otter.ai і Trint, повністю застарілими. Але Whisper не має однієї з найбільших характеристик традиційних служб транскрипції: можливості позначати, хто що сказав.

Покладаючись на локальну обробку, швидкість виконання залежить від використовуваного комп’ютера. Враховуючи, що аудіо тривалістю близько 25 хвилин обробляється за допомогою Whisper приблизно за 50 хвилин, використовуючи MacBook Pro M1, це може бути недоліком.

Витрати

Однак у технології OpenAI є велика перевага: ціна. Хмарні послуги підписки коштуватимуть грошей, якщо використовувати їх у професійних цілях. Otter.ai має безкоштовний рівень, але майбутні зміни зроблять його менш корисним для людей, які часто транскрибують речі. Такі платформи, як Microsoft Word або Pixel, вимагають оплати за окреме програмне чи апаратне забезпечення. Stage Whisper — і сам Whisper — є безкоштовним і його можна запускати на комп’ютері, який у вас уже є.

Висновок

OpenAI покладає великі очікування на Whisper, враховуючи модель машинного навчання, яка була навчена на «680.000 XNUMX годин контрольованих багатомовних і багатозадачних даних, зібраних з Інтернету». Але той факт, що він також має практичне та реальне застосування сьогодні, робить його ще більш захоплюючим.

Ercole Palmeri: Пристрасть до інновацій