Передовая система распознавания речи с открытым исходным кодом от OpenAI. Поддерживает 99 языков включая русский, обеспечивает высокую точность транскрипции и перевода.
—
Тарифы
API
$—
OpenAI API: $0.006 за минуту аудио
Бесплатно
Бесплатно
Полностью бесплатно (открытый исходный код)
Хостинг
$—
Groq: бесплатно с лимитами, faster-whisper для самостоятельного развёртывания
Плюсы и минусы
Плюсы
Лучшее качество транскрипции среди открытых моделей на 99 языках
Полностью открытый исходный код — можно запустить локально бесплатно
Автоматическое определение языка без дополнительной настройки
Поддержка перевода аудио на английский прямо при транскрипции
Устойчивость к фоновому шуму, акцентам и нечёткой речи
Минусы
Не поддерживает транскрипцию в реальном времени нативно
Высокие требования к GPU для быстрой обработки больших аудиофайлов
Иногда вставляет несуществующие слова при тишине (галлюцинации)
Модель статична — не обновляется с 2023 года, не понимает новые термины
Подробный обзор
Вопросы и ответы
Как запустить Whisper Large V3 на своём компьютере?+
Установите faster-whisper: pip install faster-whisper. Затем импортируйте WhisperModel, загрузите large-v3 и вызовите transcribe с путём к аудиофайлу. Для Windows рекомендуется WSL2 или предкомпилированные бинарники whisper.cpp.
Поддерживает ли Whisper транскрипцию в реальном времени?+
Нативно нет, но через Groq API с его ультрабыстрым инференсом задержка составляет менее секунды. Также существуют потоковые реализации через whisper-live и WhisperX с возможностью диаризации спикеров.
Насколько точна транскрипция на русском языке?+
Whisper Large V3 показывает WER около 5-10% для чистой студийной записи на русском. При наличии фонового шума или сильного акцента ошибки увеличиваются. Это один из лучших показателей среди доступных открытых моделей.
Whisper Large V3 — третья и крупнейшая версия системы автоматического распознавания речи от OpenAI, выпущенная в ноябре 2023 года. Модель обучена на 680 000 часах размеченных аудиоданных на 99 языках и является одной из самых точных открытых систем транскрипции.
Ключевые улучшения V3 по сравнению с предыдущей версией: снижение частоты ошибок транскрипции (WER) в среднем на 10-20% на всех тестовых языках, улучшенная обработка акцентов и диалектов, лучшая пунктуация и форматирование. Модель автоматически определяет язык и корректно работает с многоязычными записями.
Для русского языка Whisper Large V3 показывает впечатляющие результаты: точность транскрипции чистой речи превышает 95%, а при умеренном уровне шума остаётся выше 90%. Это делает модель пригодной для транскрипции подкастов, интервью, совещаний и лекций.
Модель полностью открыта под лицензией MIT и доступна на HuggingFace. Для локального запуска рекомендуется faster-whisper (оптимизированная версия на CTranslate2) или whisper.cpp (реализация на C++ без зависимости от Python). На GPU RTX 3080 обработка часового аудио занимает менее минуты.
Коммерческое использование через OpenAI API стоит $0.006 за минуту аудио. Groq предоставляет доступ к Whisper через ультрабыстрый инференс бесплатно в рамках лимитов, достигая скорости обработки в 200× реального времени — это де-факто обеспечивает транскрипцию в реальном времени.
Whisper Large V3 — лучшая открытая модель распознавания речи от OpenAI