MAI-Image-2 vs MAI-Transcribe-1 — сравнение бенчмарков
MAI-Image-2 и MAI-Transcribe-1 — разные модели одной экосистемы Microsoft: первая для генерации изображений, вторая для транскрипции аудио.
Бенчмарки
* Бенчмарки — стандартизированные тесты для оценки качества ИИ-моделей. Чем выше балл, тем лучше модель справляется с задачей.
MAI-Image-2 и MAI-Transcribe-1 — специализированные модели из линейки Microsoft AI. MAI-Image-2 генерирует высококачественные изображения по текстовым промптам, показывая FID 8.2 на бенчмарке COCO.
MAI-Transcribe-1 обеспечивает точную транскрипцию речи с Word Error Rate 3.8%, поддерживает множество языков включая русский. Обе модели доступны через Azure AI Services.
Прямое сравнение некорректно — модели решают разные задачи и могут дополнять друг друга в комплексных пайплайнах.
Модель генерации изображений Microsoft. Топ-3 на Arena.ai. До 1024x1024, промпт до 32K токенов. В 2 раза быстрее MAI-Image-1. 10-50 млрд параметров. Интеграция в Bing, PowerPoint и Copilot. Дешевле DALL-E 3.
Тарифы, обзор, бенчмарки →Модель распознавания речи Microsoft. 25 языков включая русский. В 2.5 раза быстрее Azure Fast. Лучший WER на FLEURS, обгоняя Whisper, GPT-Transcribe и Gemini Flash-Lite. Аудиофайлы до 200 МБ.
Тарифы, обзор, бенчмарки →