Март–апрель 2026 — самый насыщенный период релизов в истории LLM. За шесть недель вышли GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro и буквально на прошлой неделе —
Claude Opus 4.7
(16 апреля). Раскладываю актуальную картину по задачам, с цифрами и источниками.
О моделях Gemini отдельно — в
обзоре всех версий
Участники сравнения
Модель
Компания
Когда вышла
Gemini 3.1 Pro
Google DeepMind
19 февраля 2026
GPT-5.4
OpenAI
5 марта 2026
Claude Sonnet 4.6
Anthropic
март 2026
Claude Opus 4.7
Anthropic
16 апреля 2026
DeepSeek V4
DeepSeek
март 2026
Что с GPT-5.5?
OpenAI тестирует модель под кодовым названием «Spud», которая завершила предобучение ~24 марта. На 21 апреля не выпущена. По данным Polymarket, вероятность релиза до 30 апреля — 78% (источник:
lumichats.com
, апрель 2026
Бенчмарки апреля 2026
Тест
Gemini 3.1 Pro
GPT-5.4
Claude Opus 4.7
DeepSeek V4
GPQA Diamond (PhD-наука)
94.3%
92.8%
выше GPT-5.4
SWE-bench Verified (код)
80.6%
~74.9%
87.6%
81%
SWE-bench Pro (сложный код)
54.2%
57.7%
64.3%
Источники:
Anthropic, официальный релиз Opus 4.7
tech-insider.org
, апрель 2026
verdent.ai
, апрель 2026
morphllm.com
, март 2026
Главное изменение за последнюю неделю:
Opus 4.7 перехватил лидерство по коду у всех конкурентов. SWE-bench Verified 87.6% — рекорд среди коммерческих моделей на текущий момент. По словам CodeRabbit, «recall при проверке кода вырос на 10%+ при стабильной precision».
Код: Opus 4.7 впереди, но нюансы важны
До 16 апреля Gemini 3.1 Pro был лучшим по соотношению цена/код. Теперь картина изменилась.
Opus 4.7 лидирует на SWE-bench Verified (87.6%) и особенно на SWE-bench Pro (64.3%) — более сложной версии теста. GPT-5.4 ведёт по Terminal-Bench (75.1%), что актуально для DevOps и CLI-задач. Gemini 3.1 Flash остаётся лучшим вариантом для агентного кодинга в высоконагруженных пайплайнах по цене — $0.50/1M.
Важный момент про Opus 4.7:
новый токенизатор увеличивает количество токенов на 1–1.35× от предыдущего. Реальный счёт может быть выше, чем ожидаете (источник:
официальная документация Anthropic
Детальные сравнения:
Gemini 3.1 Pro vs GPT-5.4
·
Gemini vs Claude Sonnet 4.6
·
Gemini vs DeepSeek V4
Текст и контент: Claude по-прежнему лучший
По данным слепых человеческих оценок за Q1 2026 (источник:
aimagicx.com
, апрель 2026
Claude
предпочли 47% оценщиков
GPT-5.4 — 29%
Gemini 3.1 Pro — 24%
Opus 4.7 добавил улучшенное качество «профессиональных» материалов — интерфейсов, слайдов, документов. Anthropic напрямую отмечает это в релизе: модель «более вкусная и креативная при профессиональных задачах».
Мультимодальность: Gemini без конкурентов в своём классе
Gemini 3.1 Pro — единственная модель в этом сравнении с нативной поддержкой текста, изображений, аудио и видео в одном запросе. Opus 4.7 значительно улучшил зрение (2576px против 1568px у 4.6 — в 3.3× больше пикселей), но аудио и видео-ввода у Claude всё ещё нет на уровне API (источник:
evolink.ai
, апрель 2026
Для работы с видеоконтентом или аудиозаписями — Gemini без вариантов.