Whisper Large V3
Передовая система распознавания речи с открытым исходным кодом от OpenAI. Поддерживает 99 языков включая русский, обеспечивает высокую точность транскрипции и перевода.
Тарифы
- OpenAI API: $0.006 за минуту аудио
- Полностью бесплатно (открытый исходный код)
- Groq: бесплатно с лимитами, faster-whisper для самостоятельного развёртывания
Плюсы и минусы
Плюсы
- Лучшее качество транскрипции среди открытых моделей на 99 языках
- Полностью открытый исходный код — можно запустить локально бесплатно
- Автоматическое определение языка без дополнительной настройки
- Поддержка перевода аудио на английский прямо при транскрипции
- Устойчивость к фоновому шуму, акцентам и нечёткой речи
Минусы
- Не поддерживает транскрипцию в реальном времени нативно
- Высокие требования к GPU для быстрой обработки больших аудиофайлов
- Иногда вставляет несуществующие слова при тишине (галлюцинации)
- Модель статична — не обновляется с 2023 года, не понимает новые термины
Подробный обзор
Whisper Large V3 — третья и крупнейшая версия системы автоматического распознавания речи от OpenAI, выпущенная в ноябре 2023 года. Модель обучена на 680 000 часах размеченных аудиоданных на 99 языках и является одной из самых точных открытых систем транскрипции.
Ключевые улучшения V3 по сравнению с предыдущей версией: снижение частоты ошибок транскрипции (WER) в среднем на 10-20% на всех тестовых языках, улучшенная обработка акцентов и диалектов, лучшая пунктуация и форматирование. Модель автоматически определяет язык и корректно работает с многоязычными записями.
Для русского языка Whisper Large V3 показывает впечатляющие результаты: точность транскрипции чистой речи превышает 95%, а при умеренном уровне шума остаётся выше 90%. Это делает модель пригодной для транскрипции подкастов, интервью, совещаний и лекций.
Модель полностью открыта под лицензией MIT и доступна на HuggingFace. Для локального запуска рекомендуется faster-whisper (оптимизированная версия на CTranslate2) или whisper.cpp (реализация на C++ без зависимости от Python). На GPU RTX 3080 обработка часового аудио занимает менее минуты.
Коммерческое использование через OpenAI API стоит $0.006 за минуту аудио. Groq предоставляет доступ к Whisper через ультрабыстрый инференс бесплатно в рамках лимитов, достигая скорости обработки в 200× реального времени — это де-факто обеспечивает транскрипцию в реальном времени.