Флагман OpenAI от 23.04.2026. GPT-5.5 задаёт SOTA на 14 публичных бенчмарках, обходит Claude Opus 4.7 и Gemini 3.1 Pro. Та же скорость, что у GPT-5.4, но на ~40% меньше токенов на задачу. Особенно силён в агентском коде (Terminal-Bench 2.0 — 82,7%), управлении ОС (OSWorld-Verified — 78,7%), GDPval (84,9%) и FrontierMath. Цена API вдвое выше предшественника. Доступен в ChatGPT и Codex для Plus, Pro, Business, Enterprise. Лидер в Artificial Analysis Intelligence Index (60)
— новый флагман, который обходит Claude Opus 4.7 и Gemini 3.1 Pro на большинстве публичных тестов. Модель стала «самой умной» в линейке компании, получила ту же скорость, что у 5.4, и почти вдвое подорожала в API. Разбираем по цифрам.
Что нового по сравнению с GPT-5.4
Главная инженерная победа —
прирост интеллекта без потери скорости
. GPT-5.5 держит ту же per-token латентность, что и 5.4, но на типовых задачах в Codex тратит примерно на 40% меньше output-токенов. Это прямая экономия на инференсе, частично компенсирующая удвоенный тариф API.
Компания также раскатала модель в пяти режимах reasoning effort — от non-reasoning до xhigh, что даёт гибкий профиль «цена/качество» для разных задач.
Бенчмарки: полная таблица
Тест
GPT-5.5
GPT-5.4
GPT-5.5 Pro
GPT-5.4 Pro
Claude Opus 4.7
Gemini 3.1 Pro
Terminal-Bench 2.0
82,7%
75,1%
69,4%
68,5%
Expert-SWE (Internal)
73,1%
68,5%
GDPval
(wins/ties)
84,9%
83,0%
82,3%
82,0%
80,3%
67,3%
OSWorld-Verified
78,7%
75,0%
78,0%
Toolathlon
55,6%
54,6%
48,8%
BrowseComp
84,4%
82,7%
90,1%
89,3%
79,3%
85,9%
FrontierMath Tier 1–3
51,7%
47,6%
52,4%
50,0%
43,8%
36,9%
FrontierMath Tier 4
35,4%
27,1%
39,6%
38,0%
22,9%
16,7%
CyberGym
81,8%
79,0%
73,1%
Что это значит на практике
Агентский код и терминал.
На Terminal-Bench 2.0GPT-5.5 выдаёт 82,7% против 69,4% у Opus 4.7 и 68,5% у Gemini 3.1 Pro. Это не маржинальный отрыв — это полтора класса разницы.
Реальная работа.
GDPval измеряет способность агента выполнять задачи 44 профессий на уровне специалистов. 84,9% — лидерство над всеми.
Computer use.
На OSWorld-Verified (управление реальной ОС) у 5.5 — 78,7%, у Opus 4.7 — 78,0%. Разрыв минимальный, но у OpenAI впервые за долгое время чистое лидерство в этой категории.
Математика высокого уровня.
FrontierMath Tier 4 — самые сложные задачи, где Opus 4.7 выдаёт 22,9%, а GPT-5.5 Pro — 39,6%. Почти двукратный отрыв.
Веб-исследования.
GPT-5.5 Pro выдаёт 90,1% на BrowseComp против 85,9% у Gemini 3.1 Pro.
Кибербез.
CyberGym: 81,8% у 5.5 против 73,1% у Opus 4.7. OpenAI классифицировала cybersecurity-способности модели как «High» по preparedness framework, но без достижения «Critical».
Artificial Analysis Intelligence Index
На интегральном Artificial Analysis Intelligence IndexGPT-5.5 набирает
60 баллов
— на 3 очка выше Claude Opus 4.7 и Gemini 3.1 Pro Preview (оба 57). GPT-5.4 остался на ~56.
Важнее кривая, а не точка. По графику Intelligence vs output tokens GPT-5.5 доминирует на
всём диапазоне
— от 2M до 128M токенов суммарного вывода. Линия 5.5 проходит
выше
линий Opus 4.6, Opus 4.7 и 5.4 на любой точке: при одном и том же «бюджете» output-токенов 5.5 даёт более высокий интеллект. Единственная точка, где конкуренты приближаются, — Gemini 3.1 Pro Preview на ~48M токенов (≈57 баллов), но 5.5 на том же объёме уже около 59.
По сути, OpenAI достигла лучшей
token efficiency
— больше интеллекта на каждый потраченный токен. Это объясняет, почему Альтман защищает новую цену API: при удвоенном тарифе ($5 input / $30 output за 1M) реальный рост расходов на типовую задачу — около 20%.
Где GPT-5.5 всё-таки проигрывает
Опубликованные цифры — не везде в пользу OpenAI:
SWE-Bench Pro
(реальные GitHub-задачи): 58,6% у GPT-5.5 против 64,3% у Opus 4.7. OpenAI намекает на «признаки запоминания» у Anthropic, но формально — отставание.
Research writing и instruction-following.
Ревьюверы продолжают отмечать, что Opus 4.7 пишет аккуратнее и точнее следует инструкциям.
Vision-разрешение.
У Opus 4.7 — выше (~3,75 мегапикселя на вход), у OpenAI — меньше.
уже раскатан для Plus, Pro, Business, Enterprise в ChatGPT и Codex. API обещают «очень скоро».
Итог
GPT-5.5 — редкий релиз, где новый флагман
одновременно быстрее, умнее и токен-эффективнее
предшественника. За семь недель после GPT-5.4 OpenAI отбила лидерство у Anthropic (Opus 4.7 вышел ровно неделей раньше) и держит state-of-the-art на 14 публичных бенчмарках против 4 у Claude и 2 у Gemini. Главный минус — цена, главный вопрос — сколько времени это лидерство продержится. В 2026 году фронтир меряется неделями.