Модель генерации изображений Microsoft. Топ-3 на Arena.ai. До 1024x1024, промпт до 32K токенов. В 2 раза быстрее MAI-Image-1. 10-50 млрд параметров. Интеграция в Bing, PowerPoint и Copilot. Дешевле DALL-E 3.

Тарифы, обзор, бенчмарки →

MAI-Voice-1

Microsoft

Модель генерации речи Microsoft. Естественная выразительная речь с сохранением голоса. 60 секунд аудио за 1 секунду. Клонирование голоса из 10-секундного образца через Azure Personal Voice. Интеграция в Copilot для подкастов.

Тарифы, обзор, бенчмарки →

Вопросы и ответы

Что делает MAI-Voice-1?+

MAI-Voice-1 — модель синтеза речи (TTS) от Microsoft с естественным звучанием и поддержкой множества языков.

Можно ли создать видео с помощью обеих моделей?+

Да: MAI-Image-2 создаёт кадры, MAI-Voice-1 озвучивает — вместе можно собрать простое видео.

Доступны ли они бесплатно?+

Обе модели доступны через Azure AI с бесплатным уровнем для небольших объёмов.