Модель распознавания речи Microsoft. 25 языков включая русский. В 2.5 раза быстрее Azure Fast. Лучший WER на FLEURS, обгоняя Whisper, GPT-Transcribe и Gemini Flash-Lite. Аудиофайлы до 200 МБ.

Тарифы, обзор, бенчмарки →

MAI-Voice-1

Microsoft

Модель генерации речи Microsoft. Естественная выразительная речь с сохранением голоса. 60 секунд аудио за 1 секунду. Клонирование голоса из 10-секундного образца через Azure Personal Voice. Интеграция в Copilot для подкастов.

Тарифы, обзор, бенчмарки →

Вопросы и ответы

В чём разница MAI-Transcribe-1 и MAI-Voice-1?+

MAI-Transcribe-1 переводит речь в текст (STT), MAI-Voice-1 переводит текст в речь (TTS).

Можно ли их использовать вместе?+

Да, это классическая связка: MAI-Transcribe-1 слушает и транскрибирует, MAI-Voice-1 озвучивает ответ.

Какое качество транскрипции у MAI-Transcribe-1?+

WER 3.8% на чистом аудио, поддерживает 100+ языков включая русский.