GPT-5.4 vs Grok 3 — сравнение бенчмарков

GPT-5.4

OpenAI

Победитель

Grok 3

xAI

GPT-5.4

GPT-5.4 значительно сильнее на бенчмарках. Grok 3 — бесплатный через X.

Бенчмарки

GPQA Diamond

GPT-5.4

Grok

84.6

SWE-bench Verified

GPT-5.4

Grok

49.3

Arena Elo

GPT-5.4

1463

Grok

1402

MMLU-Pro

GPT-5.4

83.7

Grok

79.9

AIME 2025

GPT-5.4

Grok

93.3

Средний балл: GPT-5.4 361.3vsGrok 341.8

* Бенчмарки — стандартизированные тесты для оценки качества ИИ-моделей. Чем выше балл, тем лучше модель справляется с задачей.

Главное отличие

GPT-5.4 значительно сильнее Grok 3 в кодинге (SWE-bench 80% vs 49.3%) и научных задачах (GPQA Diamond 92% vs 84.6%). Grok 3 немного лучше в математике (AIME 2025: 93.3% vs 88%). Arena Elo у GPT-5.4 выше на 61 пункт.

Когда выбрать GPT-5.4

GPT-5.4 — профессиональный инструмент для разработки, анализа данных и научных задач. Огромное преимущество в SWE-bench (80% vs 49.3%) делает его незаменимым для работы с кодом. Широкая экосистема приложений и API.

Когда выбрать Grok 3

Grok 3 бесплатен для пользователей X Premium и отлично интегрирован с платформой. Сильная сторона — анализ данных из социальных сетей в реальном времени. Для математических олимпиадных задач может быть даже лучше GPT-5.4.

GPT-5.4

OpenAI

Флагманская модель OpenAI с контекстным окном в 1 млн токенов. Лидирует в рейтингах по комплексным задачам: рассуждения, анализ, генерация кода и работа с длинными документами. Доступна в версиях Standard, Thinking и Pro. Поддерживает текст, изображения и код. На 33% меньше галлюцинаций по сравнению с GPT-5.2

Тарифы, обзор, бенчмарки →

Grok 3

xAI

Флагманская модель от xAI (Илон Маск). Контекст 131K токенов, режим рассуждений, интеграция с X (Twitter) для доступа к данным в реальном времени. Минимальная цензура среди фронтирных моделей.

Тарифы, обзор, бенчмарки →

Вопросы и ответы

Grok бесплатный?+

Базовый — да, через X. GPT — от $20/мес.

Для серьёзных задач?+

GPT-5.4 значительно точнее.

Скорость?+

Grok быстрее.

API?+

GPT: $2.50/$10. Grok: через xAI API.