🎙️ Голос🧠 Мультимодальная API

MAI-Transcribe-1

MicrosoftДата выхода: 2 апр 2026 Сайт

Модель распознавания речи Microsoft. 25 языков включая русский. В 2.5 раза быстрее Azure Fast. Лучший WER на FLEURS, обгоняя Whisper, GPT-Transcribe и Gemini Flash-Lite. Аудиофайлы до 200 МБ.

—

Тарифы

Pay-per-use

$0.36/час аудио

25 языков
Пакетная обработка
Foundry API

Плюсы и минусы

Плюсы

Лучшая точность WER на FLEURS
В 2.5 раза быстрее Azure Fast
25 языков включая русский
Интеграция в Microsoft Foundry

Минусы

Только speech-to-text
Доступен только через Azure/Foundry
MAI Playground только из США
Закрытый код

Подробный обзор

Вопросы и ответы

Какие языки?+

25 языков: английский, русский, японский, китайский, арабский и другие.

Лучше Whisper?+

Да, наименьший WER на FLEURS и в 2.5 раза быстрее.

Макс размер файла?+

200 МБ.

Бесплатно?+

Можно попробовать в MAI Playground (только США). Коммерчески — $0.36/час.

Похожие модели

Мультимодальная

Muse Spark

Meta

Первая закрытая модель Meta от Superintelligence Labs. Мультимодальная модель рассуждений: текст, изображения, речь. Уникальный Contemplating Mode — мульти-агентная параллельная система. Три режима: Instant, Thinking, Contemplating. Бесплатно через meta.ai.

Бесплатно

Мультимодальная

Llama 3.1 405B

Meta

Крупнейшая открытая языковая модель от Meta с 405 миллиардами параметров. Сопоставима с GPT-4 по возможностям при полной открытости весов.

$—

Мультимодальная

Llama 4 Maverick

Meta

Флагманская MoE-модель Meta со 128 экспертами. 400B параметров, 17B активных. Контекст 1M токенов. Превосходит GPT-4o и Gemini 2.0 Flash. Сопоставима с DeepSeek v3 при вдвое меньшем числе активных параметров.

$0.15/1M input

Мультимодальная

GPT-5.5

OpenAI

Флагман OpenAI от 23.04.2026. GPT-5.5 задаёт SOTA на 14 публичных бенчмарках, обходит Claude Opus 4.7 и Gemini 3.1 Pro. Та же скорость, что у GPT-5.4, но на ~40% меньше токенов на задачу. Особенно силён в агентском коде (Terminal-Bench 2.0 — 82,7%), управлении ОС (OSWorld-Verified — 78,7%), GDPval (84,9%) и FrontierMath. Цена API вдвое выше предшественника. Доступен в ChatGPT и Codex для Plus, Pro, Business, Enterprise. Лидер в Artificial Analysis Intelligence Index (60)

Бесплатно

Мультимодальная

Llama 4 Scout

Meta

MoE-модель Meta с 16 экспертами. 109B параметров, 17B активных. Рекордный контекст 10 миллионов токенов. Текст, изображения, видео. 40 трлн токенов обучения, 200 языков. Llama 4 Community License.

$0.08/1M input

Используете MAI-Transcribe-1?

Поделитесь опытом в нашем сообществе

Написать пост