Claude Opus 4.7
Самая мощная публично доступная модель Anthropic из семейства Claude 4.7. Превосходит Opus 4.6, GPT-5.4 и Gemini 3.1 Pro в ключевых бенчмарках. Специализируется на сложном кодинге, агентных задачах и долгих многошаговых сценариях. Умеет проверять собственный вывод перед отчётом, работает с памятью между сессиями и обрабатывает изображения в разрешении до 2576 пикселей. Новый уровень рассуждений xhigh даёт тонкий контроль между глубиной и скоростью
Тарифы
- доступ к Opus 4.7, расширенное мышление, уровни рассуждения включая xhigh, 1M контекст, Claude Code
- всё из Pro, увеличенные лимиты в 5 раз, Cowork
- всё из Pro, увеличенные лимиты в 20 раз, Cowork, приоритетный доступ
- всё из Pro, админ-панель, Claude Code для каждого участника
- SSO, SCIM, аналитика, расширенные лимиты, выделенная поддержка
Плюсы и минусы
Плюсы
- Превосходит Opus 4.6, GPT-5.4 и Gemini 3.1 Pro в бенчмарках
- Самопроверка вывода перед финальным ответом
- Улучшенная работа с памятью между сессиями
- Разрешение изображений до 2576 пикселей (в 3+ раза больше прошлых моделей)
- Новый уровень рассуждения xhigh между high и max
- На 13% лучше решает сложные задачи кодинга (бенчмарк Hex)
- Встроенные защитные механизмы против кибермисьюза
- Низкая эффективность: low-effort Opus 4.7 ≈ medium-effort Opus 4.6
Минусы
- Уступает закрытой модели Claude Mythos Preview
- Новый токенизатор увеличивает расход входных токенов в 1,0–1,35 раза
- На высоких уровнях усилий производит больше выходных токенов
- Уменьшенные кибервозможности для массового рынка
- Может потребоваться переработка промптов от Opus 4.6
- Высокая цена API ($5/$25 за 1M токенов)
- Избыточна для простых повседневных задач
Подробный обзор
Claude Opus 4.7 вышел 16 апреля 2026 года как новый флагман линейки Anthropic. Релиз состоялся ровно через два месяца после Opus 4.6 и закрепил предсказуемую каденцию обновлений флагманских моделей. В этом обзоре разберём все бенчмарки, технические изменения и сценарии применения.
Краткая справка
| Параметр | Значение |
|---|---|
| Разработчик | Anthropic |
| Дата выхода | 16 апреля 2026 |
| Идентификатор API | claude-opus-4-7 |
| Контекстное окно | 1M токенов |
| Максимальный вывод | 128K токенов |
| Макс. разрешение изображения | 2576px по длинной стороне |
| Уровни рассуждения | low, medium, high, xhigh, max |
| Цена API (input) | $5 за 1M токенов |
| Цена API (output) | $25 за 1M токенов |
| Экономия с prompt caching | до 90% |
| Экономия с batch processing | до 50% |
Главные изменения относительно Opus 4.6
Opus 4.7 не революция, а мощная итерация. Anthropic сделала упор на пять направлений:
Кодинг. Заметный рост на всех профильных бенчмарках, особенно на сложных задачах, которые раньше требовали постоянного супервайзинга.
Самопроверка. Впервые модель Claude умеет верифицировать собственный вывод перед отчётом пользователю, создавая внутренние тесты для подтверждения корректности.
Зрение. Обработка изображений в разрешении до 2576 пикселей, что более чем в три раза больше прошлых моделей.
Агентная автономия. Лучшая работа в длинных многошаговых пайплайнах с меньшим количеством ошибок инструментов.
Уровень xhigh. Новый уровень рассуждения между high и max для тонкого контроля над балансом глубины и скорости.
Бенчмарки: Opus 4.7 против конкурентов
Агентное кодирование
| Бенчмарк | Opus 4.7 | Opus 4.6 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-bench Pro | 64,3% | 53,4% | 57,7% | 54,2% |
| SWE-bench Verified | 87,6% | 80,8% | — | 80,6% |
| Terminal-Bench 2.0 | 69,4% | 65,4% | 75,1% | — |
| CursorBench | 70,0% | 58,0% | — | — |
Opus 4.7 уверенно лидирует на SWE-bench Pro — главном индустриальном бенчмарке для реальных багов в open source репозиториях. Прирост относительно 4.6 составил почти 11 процентных пунктов, а GPT-5.4 модель обгоняет более чем на 6 пунктов. На CursorBench, измеряющем работу в IDE, рост ещё заметнее — с 58% до 70%.
Единственное заметное отставание — Terminal-Bench 2.0, где GPT-5.4 удерживает лидерство по собственным данным OpenAI.
Знания и рассуждения
| Бенчмарк | Opus 4.7 | Opus 4.6 | GPT-5.4 Pro | Gemini 3.1 Pro |
|---|---|---|---|---|
| GPQA Diamond | 94,2% | — | 94,4% | 94,3% |
| ARC-AGI-2 | 77,1% | — | — | ниже |
| GDPval-AA (Elo) | 1753 | — | 1674 | 1314 |
| BrowseComp | 79,3% | 83,7% | 89,3% | — |
На GPQA Diamond три флагмана практически равны — разброс в пределах статистической погрешности. Это значит, что бенчмарк насыщен и больше не различает модели, а конкуренция сместилась в прикладные задачи.
На ARC-AGI-2 (абстрактное рассуждение и поиск новых паттернов) Opus 4.7 показал 77,1% и обошёл Gemini 3 Pro. На GDPval-AA (экономически значимая работа в финансах и юриспруденции) Anthropic вырвалась вперёд с серьёзным отрывом.
Слабое место — BrowseComp (агентный поиск): модель просела относительно 4.6, а GPT-5.4 Pro держит уверенное лидерство на 89,3%.
Отраслевые и прикладные бенчмарки
| Бенчмарк | Opus 4.7 | Opus 4.6 |
|---|---|---|
| BigLaw Bench (юриспруденция, high effort) | 90,9% | — |
| arXiv Reasoning (с инструментами) | 91,0% | 84,7% |
| Rakuten-SWE-Bench | 3x задач | базовая |
| MCP-Atlas (tool use) | лидер | — |
| Finance Agent v1.1 | лидер | — |
| OfficeQA Pro (ошибки) | −21% | базовая |
На BigLaw Bench от Harvey Opus 4.7 набрала 90,9% с правильным разграничением тонких юридических формулировок, что ранее было проблемой для фронтирных моделей. На внутреннем бенчмарке Rakuten модель решает в три раза больше задач уровня production, чем Opus 4.6.
Компьютерное зрение и computer use
| Метрика | Opus 4.7 | Прошлые модели |
|---|---|---|
| Визуальная точность (computer use) | 98,5% | 54,5% |
| Макс. разрешение изображения | 2576px | ~800px |
| Ошибки document reasoning | −21% | базовая |
Почти двукратный рост визуальной точности для computer use делает Opus 4.7 реально применимой для автоматизации работы с интерфейсами. Утроенное разрешение позволяет разбирать плотные скриншоты, технические схемы, UML-диаграммы и планы без потери деталей.
Ключевые технические возможности
Уровень рассуждения xhigh
До Opus 4.7 API предлагал уровни low, medium, high и max. Новый xhigh расположен между high и max и решает важную практическую задачу:
| Уровень | Назначение |
|---|---|
| low | Быстрые простые ответы |
| medium | Стандартные задачи |
| high | Сложные задачи, хороший баланс |
| xhigh | Трудные задачи с контролем бюджета |
| max | Максимальная глубина без ограничений |
Max выдаёт лучшие результаты (подбирается к 75% на кодинге), но дорог и медлителен. High иногда не хватает на реально трудных задачах. Xhigh закрывает эту нишу. Anthropic рекомендует стартовать с high или xhigh для кодинга и агентных сценариев.
Самопроверка вывода
Opus 4.7 создаёт внутренние тесты, чтобы убедиться в корректности ответа перед тем, как его отдать. Это первая модель Claude, которая прошла так называемые implicit-need tests — задачи, где нужные инструменты и действия не заданы явно, а должны быть выведены из контекста.
На внутренних бенчмарках Anthropic это даёт:
- плюс 14% на сложных многошаговых сценариях относительно Opus 4.6
- на треть меньше ошибок при работе с инструментами
- меньший расход токенов на ту же задачу
Файловая память между сессиями
Модель лучше работает с памятью на основе файловой системы: сохраняет заметки между сессиями и использует их для подхвата новых задач. Это сокращает объём контекста, который нужно передавать заново.
Task budgets (публичная бета)
Новая система позволяет задавать жёсткий лимит токенов на рассуждение для автономных агентов. Это защищает от ситуаций, когда долгоиграющая отладочная сессия съедает неожиданный бюджет.
Новый токенизатор
Tokenizer обновлён и лучше обрабатывает текст, но один и тот же ввод теперь кодируется в 1,0–1,35 раза большее число токенов в зависимости от типа контента. При миграции с 4.6 это нужно учитывать при расчёте расходов.
Экосистемные изменения: Claude Code
Вместе с моделью обновился и Claude Code:
/ultrareview — новая команда для глубокой проверки кода. Это не обычный lint, а симуляция работы senior-ревьюера: анализирует архитектуру, безопасность, производительность и поддерживаемость. Pro и Max пользователи получают три бесплатных ultrareview.
Auto mode для Max — режим, в котором Claude принимает автономные решения без постоянных разрешений, теперь доступен и подписчикам Max (раньше только Teams/Enterprise/API).
Сдвиг дефолтного effort level — в Claude Code сменилось значение по умолчанию, появилась опция --effort xhigh.
Стоимость: сравнение флагманов
| Модель | Input ($/1M) | Output ($/1M) |
|---|---|---|
| Claude Opus 4.7 | 5,00 | 25,00 |
| Claude Opus 4.6 | 5,00 | 25,00 |
| GPT-5.4 Pro | — | — |
| Gemini 3.1 Pro | 2,00 | 12,00 |
Цена Opus 4.7 осталась такой же, как у Opus 4.6, что фактически означает прирост качества при тех же затратах. Gemini 3.1 Pro стоит примерно вдвое дешевле, но Opus 4.7 оправдывает премию для задач, где важны кодинг и агентное рассуждение.
Для US-only инференса в Anthropic действует надбавка x1,1 на input и output.
Безопасность и Project Glasswing
Opus 4.7 стал первой моделью, на которой Anthropic обкатывает новые защитные механизмы в рамках Project Glasswing. Ключевые решения:
- во время обучения кибервозможности модели целенаправленно снижались относительно Claude Mythos Preview
- в релиз встроены автоматические фильтры, детектирующие запросы с высоким риском киберзлоупотреблений
- для ИБ-специалистов с легитимными задачами (исследование уязвимостей, пентесты, red team) открыта Cyber Verification Program
По результатам внутреннего аудита безопасности:
| Метрика | Opus 4.7 против 4.6 |
|---|---|
| Честность | лучше |
| Устойчивость к prompt injection | лучше |
| Склонность к обману | на том же уровне |
| Подхалимство | на том же уровне |
| Содействие misuse | на том же уровне |
| Избыточные советы по контролируемым веществам | чуть хуже |
Alignment-оценка звучит так: модель «в целом хорошо выровнена и заслуживает доверия, хотя её поведение не идеально». Для сравнения, Mythos Preview остаётся самой хорошо выровненной моделью Anthropic по внутренним оценкам.
Отзывы партнёров
Hex (платформа аналитики): «Claude Opus 4.7 — сильнейшая модель, которую мы тестировали. Она корректно сообщает о недостающих данных вместо правдоподобных, но неверных предположений».
Cursor (AI IDE): рост CursorBench с 58% до 70% — «ощутимый скачок возможностей для автономного кодинга».
Warp (терминал): «Модель справилась с задачами Terminal Bench, которые проваливали прошлые версии Claude, и починила сложный баг concurrency, с которым Opus 4.6 не справилась».
CodeRabbit (ревью кода): «Recall вырос более чем на 10%, при этом precision не упал. Самые сложные баги в больших PR теперь находятся».
Harvey (юридический AI): «90,9% на BigLaw Bench и заметно более умное обращение с неоднозначными задачами редактирования документов».
Rakuten (e-commerce): «В три раза больше production-задач решено на Rakuten-SWE-Bench с двузначным ростом по качеству кода и тестов».
Hebbia (корпоративный агент): «Двузначный рост точности вызовов инструментов и планирования в базовых агентах-оркестраторах».
Миграция с Opus 4.6: что учесть
- Промпты. Opus 4.7 следует инструкциям более буквально. Промпты, настроенные под 4.6, могут давать неожиданный результат и требуют перетестирования.
- Расход токенов. Новый токенизатор увеличивает input на 1,0–1,35 раза, а более глубокое рассуждение повышает output. Закладывайте рост бюджета.
- Effort level. Для кодинга и агентных задач рекомендуется стартовать с high или xhigh, а не с медианного medium.
- Инструменты. Модель лучше переживает сбои инструментов и продолжает работу там, где 4.6 останавливалась. Можно пересмотреть защитные обёртки.
Доступность
Opus 4.7 доступна с 16 апреля 2026:
- в Claude (подписки Pro, Max, Team, Enterprise)
- в Claude API (
claude-opus-4-7) - в Amazon Bedrock (US East Virginia, Asia Pacific Tokyo, Europe Ireland, Europe Stockholm)
- в Google Cloud Vertex AI
- в Microsoft Foundry
- в GitHub Copilot (Pro+, Business, Enterprise) с промоценой x7,5 до 30 апреля
Вердикт
Claude Opus 4.7 — не просто апдейт, а осмысленное переосмысление того, что публично доступная фронтирная модель должна уметь делать. Если Opus 4.6 был про надёжность в корпоративных сценариях, то 4.7 смещает фокус на автономность: модель теперь способна планировать, проверять себя и доводить до конца долгие задачи с минимальным вмешательством человека.
Для команд, которые строят серьёзные агентные системы, пишут сложный код или занимаются юридической и финансовой аналитикой, это новая точка отсчёта. Для простых повседневных сценариев по-прежнему разумнее Sonnet 4.6: дешевле, быстрее, хватит с запасом. А Claude Mythos Preview пока остаётся недоступным эталоном, на который Opus 4.7 равняется и до которого постепенно подтягивается.