Сообщество

Чем новая модель Claude Opus 4.7 отличается от Opus 4.6?

Если коротко: Opus 4.7 это та же Opus 4.6, только теперь она реально доводит сложные задачи до конца сама. Разбираем по пунктам, что изменилось и стоит ли переходить.

1. Кодинг стал заметно лучше

И это не маркетинг, а живые цифры. На главном индустриальном тесте SWE-bench Pro модель взяла 64,3% против 53,4% у Opus 4.6. Прирост почти 11 пунктов, это много.

В Cursor, где реально работают разработчики, скачок ещё больше: с 58% до 70%.

Проще говоря, задачи, которые раньше приходилось переделывать по три раза или сидеть над ними с моделью в обнимку, теперь можно просто отдать и пойти пить кофе.

2. Модель проверяет сама себя

Это, пожалуй, главная фишка. Opus 4.7 перед тем как выдать ответ, сама придумывает способ его протестировать:

  • не нашла ошибку, отдала результат
  • нашла, переделала и только потом отдала

Раньше такое приходилось делать либо промптами, либо внешними проверками. Теперь оно встроено в саму модель.

3. Она видит в три раза лучше

Серьёзно. Разрешение картинок выросло с примерно 800 пикселей до 2576 по длинной стороне. Что это даёт на практике:

  • скриншоты интерфейсов читаются нормально
  • технические схемы и UML-диаграммы не теряют детали
  • мелкий текст больше не превращается в кашу

Для computer use, где модель тыкает в кнопки вашего экрана, визуальная точность подскочила с 54,5% до 98,5%. Почти в два раза.

4. Появился новый уровень рассуждения xhigh

Раньше было четыре режима: low, medium, high, max.

  • Max думает лучше всех, но медленно и дорого
  • High иногда недотягивает на реально трудных задачах
  • Xhigh это новая золотая середина между ними

Anthropic рекомендует ставить именно xhigh для кодинга и агентных задач.

5. Память между сессиями стала умнее

Модель запоминает заметки в файлах и использует их в следующих диалогах. То есть не надо каждый раз заново объяснять контекст проекта, подгружать документацию или напоминать, что вы там обсуждали неделю назад.

6. Агентная работа стала надёжнее

По внутренним тестам Anthropic на сложных многошаговых задачах:

  • +14% качества относительно Opus 4.6
  • в три раза меньше ошибок с инструментами
  • меньше токенов на ту же задачу

Модель не падает, когда какой-то инструмент глючит, а продолжает работать. Раньше Opus 4.6 часто просто останавливалась.

7. Цена не изменилась

Пять долларов за миллион входных токенов и двадцать пять за выходные. Ровно как у Opus 4.6.

Но есть нюанс. Новый токенизатор считает примерно на 10–35% больше токенов за тот же текст. Плюс модель глубже думает на высоких уровнях. В итоге счёт в среднем вырастет, даже при той же тарификации.

А что стало хуже?

Честно скажем, не всё идеально.

  • Агентный поиск в вебе просел. BrowseComp упал с 83,7% до 79,3%. GPT-5.4 Pro здесь впереди с 89,3%. Если у вас пайплайны для ресёрча в интернете, тестируйте оба варианта.
  • Кибербезопасность намеренно урезана. Anthropic сознательно снизила эти возможности из-за Project Glasswing. Для пентестеров и ИБ-специалистов есть отдельная Cyber Verification Program.

Важный момент при переходе с 4.6

Opus 4.7 воспринимает инструкции буквальнее. Ваши старые промпты, настроенные под Opus 4.6, могут сработать иначе и дать неожиданный результат. Перетестируйте всё, прежде чем выкатывать в продакшен.

Итог одной фразой

Opus 4.7 это Opus 4.6 с прокачанной автономностью. Если вы работаете с кодом, агентами и долгими задачами, переходите смело. Если гоняете простые запросы, разницу почти не заметите.

Комментарии (1)

Штруцель #8🌱8ч назад

👍