Модель распознавания речи Microsoft. 25 языков включая русский. В 2.5 раза быстрее Azure Fast. Лучший WER на FLEURS, обгоняя Whisper, GPT-Transcribe и Gemini Flash-Lite. Аудиофайлы до 200 МБ.
—
Тарифы
Pay-per-use
$0.36/час аудио
25 языков
Пакетная обработка
Foundry API
Плюсы и минусы
Плюсы
Лучшая точность WER на FLEURS
В 2.5 раза быстрее Azure Fast
25 языков включая русский
Интеграция в Microsoft Foundry
Минусы
Только speech-to-text
Доступен только через Azure/Foundry
MAI Playground только из США
Закрытый код
Подробный обзор
Вопросы и ответы
Какие языки?+
25 языков: английский, русский, японский, китайский, арабский и другие.
Лучше Whisper?+
Да, наименьший WER на FLEURS и в 2.5 раза быстрее.
Макс размер файла?+
200 МБ.
Бесплатно?+
Можно попробовать в MAI Playground (только США). Коммерчески — $0.36/час.
MAI-Transcribe-1 — модель распознавания речи от Microsoft, выпущенная 2 апреля 2026 года. Лучший результат по метрике WER (Word Error Rate) на бенчмарке FLEURS среди всех моделей, включая Whisper, GPT-Transcribe и Gemini Flash-Lite.
Ключевые возможности
WER 3.8-3.9% на FLEURS — лучший результат. 25 языков включая русский. Пакетная транскрибация в 2.5 раза быстрее предыдущего решения Azure Fast. Максимальный размер аудиофайла 200 МБ. $0.36 за час аудио ($6 за 1000 минут).
Сравнение с конкурентами
Whisper large-v3 показывает WER 7.6% — в 2 раза хуже MAI-Transcribe-1. GPT-Transcribe от OpenAI точнее Whisper, но уступает MAI-Transcribe-1. Цена $0.36/час конкурентоспособна с Google Speech-to-Text ($0.36-0.48/час).
Как начать
Доступна через Microsoft Foundry (ai.azure.com). MAI Playground для тестирования (только из США). Интеграция через Azure Speech SDK. Поддержка REST API для пакетной обработки.