GPT-5.4 vs Gemini 3.1 Pro — сравнение бенчмарков

GPT-5.4

OpenAI

Gemini 3.1 Pro

Google

Ничья

Обе модели на вершине. GPT-5.4 — мультимодальный лидер. Gemini 3.1 Pro — рекордный контекст 2M.

Бенчмарки

GPQA Diamond

GPT-5.4

Gemini

94.3

SWE-bench Verified

GPT-5.4

Gemini

80.6

Arena Elo

GPT-5.4

1463

Gemini

1492

MMLU

GPT-5.4

OpenAI

Флагманская модель OpenAI с контекстным окном в 1 млн токенов. Лидирует в рейтингах по комплексным задачам: рассуждения, анализ, генерация кода и работа с длинными документами. Доступна в версиях Standard, Thinking и Pro. Поддерживает текст, изображения и код. На 33% меньше галлюцинаций по сравнению с GPT-5.2

Тарифы, обзор, бенчмарки →

Gemini 3.1 Pro

Google

Флагманская модель Google с контекстом 2 млн токенов и нативной мультимодальностью — текст, изображения, аудио и видео без транскрипции. Лидирует в независимых рейтингах по рассуждениям (GPQA Diamond 94.3%) и ARC-AGI-2. Встроенный sandbox для запуска кода. Лучшее соотношение цена/качество среди фронтирных моделей.

Тарифы, обзор, бенчмарки →

Вопросы и ответы

Контекст?+

Gemini: 2M (рекорд). GPT-5.4: 1.05M.

Для видео?+

Gemini нативно анализирует видео. GPT — через описания.

API цены?+

GPT: $2.50/$10. Gemini: $1.25/$5 (Flash), $3.50/$10.50 (Pro).

Кто новее?+

Оба актуальны на апрель 2026.

* Бенчмарки — стандартизированные тесты для оценки качества ИИ-моделей. Чем выше балл, тем лучше модель справляется с задачей.

Gemini 3.1 Pro превосходит GPT-5.4 практически по всем бенчмаркам: GPQA Diamond (94.3% vs 92%), MMLU (92.6% vs 83.7%), Arena Elo (1492 vs 1463). По SWE-bench результаты почти равны. Контекст Gemini в 3.7 раза больше (1M vs 272K).

GPT-5.4 лидирует в ARC-AGI 2 (73.3%) и задачах Computer Use. Хорошо интегрирован с экосистемой OpenAI, ChatGPT и тысячами приложений. Привычный API для разработчиков, уже работающих с OpenAI.

Gemini 3.1 Pro — объективно сильнейшая модель по научным бенчмаркам в 2026 году. Контекст 1M токенов, нативная мультимодальность и дешёвая цена делают его оптимальным для исследований, анализа документов и мультимедийных задач.