Модель генерации речи Microsoft. Естественная выразительная речь с сохранением голоса. 60 секунд аудио за 1 секунду. Клонирование голоса из 10-секундного образца через Azure Personal Voice. Интеграция в Copilot для подкастов.
—
Тарифы
Pay-per-use
$22/1M символов
Генерация голоса
Клонирование
Foundry API
Плюсы и минусы
Плюсы
60 секунд аудио за 1 секунду
Сохраняет идентичность и эмоции голоса
Клонирование из 10-секундного образца
Интеграция с Copilot
Минусы
Число языков не раскрыто
Только через Azure/Foundry
Не open source
Playground только из США
Подробный обзор
Вопросы и ответы
Можно клонировать голос?+
Да, через Azure Personal Voice из 10-секундного образца.
Скорость генерации?+
60 секунд аудио за 1 секунду.
Где используется?+
Copilot для подкастов, Foundry API для разработчиков.
MAI-Voice-1 — модель генерации речи от Microsoft, выпущенная 2 апреля 2026. Создаёт естественную выразительную речь с сохранением идентичности голоса. Генерирует 60 секунд аудио за 1 секунду. Клонирование голоса из 10-секундного образца.
Ключевые возможности
Скорость генерации 60x реального времени. Клонирование через Azure Personal Voice из минимального образца. $22 за 1 миллион символов. Интеграция в Copilot для подкастов и аудиоконтента. Сохранение эмоционального диапазона говорящего.
Сравнение с конкурентами
ElevenLabs Eleven v3 предлагает более широкий выбор голосов и языков, но дороже на больших объёмах. OpenAI TTS дешевле ($15/1M символов), но не поддерживает клонирование. MAI-Voice-1 выигрывает по скорости генерации (60x vs ~20x у конкурентов).
Как начать
Через Microsoft Foundry или Azure Speech SDK. Personal Voice для клонирования требует подтверждение согласия говорящего. REST API для интеграции в приложения.