MAI-Transcribe-1
Модель распознавания речи Microsoft. 25 языков включая русский. В 2.5 раза быстрее Azure Fast. Лучший WER на FLEURS, обгоняя Whisper, GPT-Transcribe и Gemini Flash-Lite. Аудиофайлы до 200 МБ.
Тарифы
- 25 языков
- Пакетная обработка
- Foundry API
Плюсы и минусы
Плюсы
- Лучшая точность WER на FLEURS
- В 2.5 раза быстрее Azure Fast
- 25 языков включая русский
- Интеграция в Microsoft Foundry
Минусы
- Только speech-to-text
- Доступен только через Azure/Foundry
- MAI Playground только из США
- Закрытый код
Подробный обзор
Что такое MAI-Transcribe-1
MAI-Transcribe-1 — модель распознавания речи от Microsoft, выпущенная 2 апреля 2026 года. Лучший результат по метрике WER (Word Error Rate) на бенчмарке FLEURS среди всех моделей, включая Whisper, GPT-Transcribe и Gemini Flash-Lite.
Ключевые возможности
WER 3.8-3.9% на FLEURS — лучший результат. 25 языков включая русский. Пакетная транскрибация в 2.5 раза быстрее предыдущего решения Azure Fast. Максимальный размер аудиофайла 200 МБ. $0.36 за час аудио ($6 за 1000 минут).
Сравнение с конкурентами
Whisper large-v3 показывает WER 7.6% — в 2 раза хуже MAI-Transcribe-1. GPT-Transcribe от OpenAI точнее Whisper, но уступает MAI-Transcribe-1. Цена $0.36/час конкурентоспособна с Google Speech-to-Text ($0.36-0.48/час).
Как начать
Доступна через Microsoft Foundry (ai.azure.com). MAI Playground для тестирования (только из США). Интеграция через Azure Speech SDK. Поддержка REST API для пакетной обработки.