MAI-Voice-1
Модель генерации речи Microsoft. Естественная выразительная речь с сохранением голоса. 60 секунд аудио за 1 секунду. Клонирование голоса из 10-секундного образца через Azure Personal Voice. Интеграция в Copilot для подкастов.
Тарифы
- Генерация голоса
- Клонирование
- Foundry API
Плюсы и минусы
Плюсы
- 60 секунд аудио за 1 секунду
- Сохраняет идентичность и эмоции голоса
- Клонирование из 10-секундного образца
- Интеграция с Copilot
Минусы
- Число языков не раскрыто
- Только через Azure/Foundry
- Не open source
- Playground только из США
Подробный обзор
Что такое MAI-Voice-1
MAI-Voice-1 — модель генерации речи от Microsoft, выпущенная 2 апреля 2026. Создаёт естественную выразительную речь с сохранением идентичности голоса. Генерирует 60 секунд аудио за 1 секунду. Клонирование голоса из 10-секундного образца.
Ключевые возможности
Скорость генерации 60x реального времени. Клонирование через Azure Personal Voice из минимального образца. $22 за 1 миллион символов. Интеграция в Copilot для подкастов и аудиоконтента. Сохранение эмоционального диапазона говорящего.
Сравнение с конкурентами
ElevenLabs Eleven v3 предлагает более широкий выбор голосов и языков, но дороже на больших объёмах. OpenAI TTS дешевле ($15/1M символов), но не поддерживает клонирование. MAI-Voice-1 выигрывает по скорости генерации (60x vs ~20x у конкурентов).
Как начать
Через Microsoft Foundry или Azure Speech SDK. Personal Voice для клонирования требует подтверждение согласия говорящего. REST API для интеграции в приложения.