🎙️ Голос🧠 Мультимодальная API

MAI-Voice-1

MicrosoftДата выхода: 2 апр 2026 Сайт

Модель генерации речи Microsoft. Естественная выразительная речь с сохранением голоса. 60 секунд аудио за 1 секунду. Клонирование голоса из 10-секундного образца через Azure Personal Voice. Интеграция в Copilot для подкастов.

—

Тарифы

Pay-per-use

$22/1M символов

Генерация голоса
Клонирование
Foundry API

Плюсы и минусы

Плюсы

60 секунд аудио за 1 секунду
Сохраняет идентичность и эмоции голоса
Клонирование из 10-секундного образца
Интеграция с Copilot

Минусы

Число языков не раскрыто
Только через Azure/Foundry
Не open source
Playground только из США

Подробный обзор

Вопросы и ответы

Можно клонировать голос?+

Да, через Azure Personal Voice из 10-секундного образца.

Скорость генерации?+

60 секунд аудио за 1 секунду.

Где используется?+

Copilot для подкастов, Foundry API для разработчиков.

Дешевле ElevenLabs?+

$22 за 1М символов — конкурентоспособная цена.

Похожие модели

Мультимодальная

Muse Spark

Meta

Первая закрытая модель Meta от Superintelligence Labs. Мультимодальная модель рассуждений: текст, изображения, речь. Уникальный Contemplating Mode — мульти-агентная параллельная система. Три режима: Instant, Thinking, Contemplating. Бесплатно через meta.ai.

Бесплатно

Мультимодальная

Llama 3.1 405B

Meta

Крупнейшая открытая языковая модель от Meta с 405 миллиардами параметров. Сопоставима с GPT-4 по возможностям при полной открытости весов.

$—

Мультимодальная

Llama 4 Maverick

Meta

Флагманская MoE-модель Meta со 128 экспертами. 400B параметров, 17B активных. Контекст 1M токенов. Превосходит GPT-4o и Gemini 2.0 Flash. Сопоставима с DeepSeek v3 при вдвое меньшем числе активных параметров.

$0.15/1M input

Мультимодальная

GPT-5.5

OpenAI

Флагман OpenAI от 23.04.2026. GPT-5.5 задаёт SOTA на 14 публичных бенчмарках, обходит Claude Opus 4.7 и Gemini 3.1 Pro. Та же скорость, что у GPT-5.4, но на ~40% меньше токенов на задачу. Особенно силён в агентском коде (Terminal-Bench 2.0 — 82,7%), управлении ОС (OSWorld-Verified — 78,7%), GDPval (84,9%) и FrontierMath. Цена API вдвое выше предшественника. Доступен в ChatGPT и Codex для Plus, Pro, Business, Enterprise. Лидер в Artificial Analysis Intelligence Index (60)

Бесплатно

Мультимодальная

Llama 4 Scout

Meta

MoE-модель Meta с 16 экспертами. 109B параметров, 17B активных. Рекордный контекст 10 миллионов токенов. Текст, изображения, видео. 40 трлн токенов обучения, 200 языков. Llama 4 Community License.

$0.08/1M input

Используете MAI-Voice-1?

Поделитесь опытом в нашем сообществе

Написать пост