MAI-Transcribe-1 vs MAI-Voice-1 — сравнение бенчмарков
MAI-Transcribe-1 распознаёт речь (STT), MAI-Voice-1 синтезирует речь (TTS) — взаимодополняющие модели Microsoft AI.
Бенчмарки
* Бенчмарки — стандартизированные тесты для оценки качества ИИ-моделей. Чем выше балл, тем лучше модель справляется с задачей.
MAI-Transcribe-1 и MAI-Voice-1 — взаимодополняющие компоненты речевого AI от Microsoft. MAI-Transcribe-1 обеспечивает распознавание речи с WER 3.8%, MAI-Voice-1 — синтез с MOS 4.4.
Эти модели созданы для совместного использования: MAI-Transcribe-1 принимает голосовой ввод и конвертирует в текст, языковая модель обрабатывает запрос, MAI-Voice-1 озвучивает ответ.
Вместе они образуют полный пайплайн голосового AI-ассистента. Оба доступны через Azure AI Services с гибкими тарифами.
Модель распознавания речи Microsoft. 25 языков включая русский. В 2.5 раза быстрее Azure Fast. Лучший WER на FLEURS, обгоняя Whisper, GPT-Transcribe и Gemini Flash-Lite. Аудиофайлы до 200 МБ.
Тарифы, обзор, бенчмарки →Модель генерации речи Microsoft. Естественная выразительная речь с сохранением голоса. 60 секунд аудио за 1 секунду. Клонирование голоса из 10-секундного образца через Azure Personal Voice. Интеграция в Copilot для подкастов.
Тарифы, обзор, бенчмарки →