MAI-Image-2 vs MAI-Voice-1 — сравнение бенчмарков
MAI-Image-2 генерирует изображения, MAI-Voice-1 синтезирует речь — разные модальности одной экосистемы Microsoft AI.
Бенчмарки
* Бенчмарки — стандартизированные тесты для оценки качества ИИ-моделей. Чем выше балл, тем лучше модель справляется с задачей.
MAI-Image-2 и MAI-Voice-1 — дополняющие друг друга модели из экосистемы Microsoft AI. MAI-Image-2 создаёт изображения по текстовым описаниям с качеством уровня DALL-E 3.
MAI-Voice-1 обеспечивает синтез речи с MOS 4.4 из 5.0, поддерживает 40+ языков и различные интонации. Обе модели интегрированы в Azure AI Services и Copilot Studio.
Они занимают разные ниши и идеально работают совместно для создания мультимедийного контента с визуальными и аудиальными компонентами.
Модель генерации изображений Microsoft. Топ-3 на Arena.ai. До 1024x1024, промпт до 32K токенов. В 2 раза быстрее MAI-Image-1. 10-50 млрд параметров. Интеграция в Bing, PowerPoint и Copilot. Дешевле DALL-E 3.
Тарифы, обзор, бенчмарки →Модель генерации речи Microsoft. Естественная выразительная речь с сохранением голоса. 60 секунд аудио за 1 секунду. Клонирование голоса из 10-секундного образца через Azure Personal Voice. Интеграция в Copilot для подкастов.
Тарифы, обзор, бенчмарки →