Каталог моделей
🎙️ Голос🧠 Мультимодальная API

MAI-Transcribe-1

MicrosoftДата выхода: 2 апр 2026 Сайт

Модель распознавания речи Microsoft. 25 языков включая русский. В 2.5 раза быстрее Azure Fast. Лучший WER на FLEURS, обгоняя Whisper, GPT-Transcribe и Gemini Flash-Lite. Аудиофайлы до 200 МБ.

Тарифы

Pay-per-use
$0.36/час аудио
  • 25 языков
  • Пакетная обработка
  • Foundry API

Плюсы и минусы

Плюсы

  • Лучшая точность WER на FLEURS
  • В 2.5 раза быстрее Azure Fast
  • 25 языков включая русский
  • Интеграция в Microsoft Foundry

Минусы

  • Только speech-to-text
  • Доступен только через Azure/Foundry
  • MAI Playground только из США
  • Закрытый код

Подробный обзор

Что такое MAI-Transcribe-1

MAI-Transcribe-1 — модель распознавания речи от Microsoft, выпущенная 2 апреля 2026 года. Лучший результат по метрике WER (Word Error Rate) на бенчмарке FLEURS среди всех моделей, включая Whisper, GPT-Transcribe и Gemini Flash-Lite.

Ключевые возможности

WER 3.8-3.9% на FLEURS — лучший результат. 25 языков включая русский. Пакетная транскрибация в 2.5 раза быстрее предыдущего решения Azure Fast. Максимальный размер аудиофайла 200 МБ. $0.36 за час аудио ($6 за 1000 минут).

Сравнение с конкурентами

Whisper large-v3 показывает WER 7.6% — в 2 раза хуже MAI-Transcribe-1. GPT-Transcribe от OpenAI точнее Whisper, но уступает MAI-Transcribe-1. Цена $0.36/час конкурентоспособна с Google Speech-to-Text ($0.36-0.48/час).

Как начать

Доступна через Microsoft Foundry (ai.azure.com). MAI Playground для тестирования (только из США). Интеграция через Azure Speech SDK. Поддержка REST API для пакетной обработки.

Вопросы и ответы

Какие языки?+
25 языков: английский, русский, японский, китайский, арабский и другие.
Лучше Whisper?+
Да, наименьший WER на FLEURS и в 2.5 раза быстрее.
Макс размер файла?+
200 МБ.
Бесплатно?+
Можно попробовать в MAI Playground (только США). Коммерчески — $0.36/час.

Похожие модели

Мультимодальная

Claude Sonnet 4.6

Anthropic

Оптимальная модель Anthropic по соотношению цены и качества из семейства Claude 4.6. Приближается к Opus по интеллекту при значительно меньшей стоимости. Отлично справляется с кодингом, анализом документов, агентными задачами и computer use. Контекст 1M токенов, до 64K токенов на выходе. Идеальна для повседневных рабочих задач, где нужен баланс между скоростью, качеством и ценой.

$20/мес
Мультимодальная

GPT-5.4

OpenAI

Флагманская модель OpenAI с контекстным окном в 1 млн токенов. Лидирует в рейтингах по комплексным задачам: рассуждения, анализ, генерация кода и работа с длинными документами. Доступна в версиях Standard, Thinking и Pro. Поддерживает текст, изображения и код. На 33% меньше галлюцинаций по сравнению с GPT-5.2

Бесплатно
Мультимодальная

Muse Spark

Meta

Первая закрытая модель Meta от Superintelligence Labs. Мультимодальная модель рассуждений: текст, изображения, речь. Уникальный Contemplating Mode — мульти-агентная параллельная система. Три режима: Instant, Thinking, Contemplating. Бесплатно через meta.ai.

Бесплатно
Мультимодальная

GPT-4o

OpenAI

GPT-4o — мультимодальная флагманская модель OpenAI с нативной обработкой текста, изображений и аудио. Выпущена в мае 2024 года, стала стандартом качества для сложных задач.

Бесплатно
Мультимодальная

Llama 3.1 405B

Meta

Крупнейшая открытая языковая модель от Meta с 405 миллиардами параметров. Сопоставима с GPT-4 по возможностям при полной открытости весов.

$—

Используете MAI-Transcribe-1?

Поделитесь опытом в нашем сообществе

Написать пост