MAI-Image-2 vs MAI-Transcribe-1 — сравнение бенчмарков

Ничья

MAI-Image-2 и MAI-Transcribe-1 — разные модели одной экосистемы Microsoft: первая для генерации изображений, вторая для транскрипции аудио.

Бенчмарки

FID (изображения)

MAI-Image-2

8.2

MAI-Transcribe-1

WER транскрипции

MAI-Image-2

MAI-Transcribe-1

3.8

Соответствие промпту

MAI-Image-2

MAI-Transcribe-1

Средний балл: MAI-Image-2 33.1vsMAI-Transcribe-1 1.3

* Бенчмарки — стандартизированные тесты для оценки качества ИИ-моделей. Чем выше балл, тем лучше модель справляется с задачей.

MAI-Image-2

Microsoft

Модель генерации изображений Microsoft. Топ-3 на Arena.ai. До 1024x1024, промпт до 32K токенов. В 2 раза быстрее MAI-Image-1. 10-50 млрд параметров. Интеграция в Bing, PowerPoint и Copilot. Дешевле DALL-E 3.

Тарифы, обзор, бенчмарки →

MAI-Transcribe-1

Microsoft

Модель распознавания речи Microsoft. 25 языков включая русский. В 2.5 раза быстрее Azure Fast. Лучший WER на FLEURS, обгоняя Whisper, GPT-Transcribe и Gemini Flash-Lite. Аудиофайлы до 200 МБ.

Тарифы, обзор, бенчмарки →

Вопросы и ответы

Что такое MAI-Image-2 и MAI-Transcribe-1?+

MAI-Image-2 — генератор изображений от Microsoft, MAI-Transcribe-1 — модель распознавания речи для транскрипции аудио.

Можно ли их использовать вместе?+

Да, в пайплайне: транскрибируйте аудио через MAI-Transcribe-1, затем используйте текст как промпт для MAI-Image-2.

Они входят в одну экосистему?+

Оба продукта входят в линейку Microsoft AI (MAI) и доступны через Azure AI Services.