Claude Mythos - самая мощная модель Anthropic в 2026: бенчмарки, цены, дата выхода
Изучаю и тестирую нейросети более 2 лет. Основатель Shtruzel — помогаю разобраться в мире ИИ простым языком.
26 марта 2026 года мир узнал о существовании Claude Mythos не из пресс-релиза, не из красиво срежиссированной презентации, а из-за банальной ошибки конфигурации CMS. Исследователи безопасности Рой Паз из LayerX Security и Александр Повель из Кембриджского университета обнаружили почти 3 000 неопубликованных файлов в открытом доступе на серверах Anthropic. Среди них — черновик блог-поста, описывающий модель под кодовым названием «Capybara». Модель, которая, по словам самой компании, представляет собой «качественный скачок» относительно всего, что они создавали раньше.
Ирония ситуации бьёт наотмашь: компания, чья новая модель обещает «беспрецедентные возможности в кибербезопасности», допустила элементарную ошибку конфигурации на собственном сервере. Но обо всём по порядку.

Что вообще такое Mythos и почему это не просто «следующий Opus»
Здесь важно сразу расставить точки. Claude Mythos — это не Claude Opus 4.7. Это не инкрементальное обновление. Anthropic создала совершенно новый уровень в иерархии моделей, который стоит над текущей линейкой Opus.
До сих пор иерархия Claude выглядела так: Haiku (самая быстрая и дешёвая), Sonnet (баланс цены и качества — подробный обзор Sonnet 4.6), и Opus (флагман — обзор Opus 4.6). Mythos добавляет четвёртый, верхний уровень — уровень, который внутри компании называли «Capybara».
В слитом черновике прямо написано: «Capybara — это новый уровень моделей: крупнее и интеллектуальнее наших моделей Opus, которые до сих пор были самыми мощными». Обратите внимание на формулировку — не «немного лучше», а «крупнее и интеллектуальнее». Слово «dramatically higher» (радикально выше) используется для описания разрыва в показателях по кодингу, академическим задачам и кибербезопасности.
Anthropic подтвердила факт разработки модели на следующий день после публикации Fortune, закрыла доступ к файлам и назвала инцидент «человеческой ошибкой».
Генератор промптов
Создайте идеальный промпт для ChatGPT, Claude, Midjourney и других нейросетей с помощью ИИ-ассистента.
Попробовать бесплатно →Бенчмарки: цифры, от которых становится не по себе
7 апреля 2026 года Anthropic официально представила Claude Mythos Preview вместе с 244-страничной системной картой. И вот тут стало ясно, что слово «step change» не было маркетинговым преувеличением.
Разберём ключевые результаты в сравнении с Claude Opus 4.6, текущим флагманом:
Кодинг
| Бенчмарк | Mythos Preview | Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| SWE-bench Verified | 93.9% | 80.8% | — |
| SWE-bench Pro | 77.8% | 53.4% | 57.7% |
| Terminal-Bench 2.0 | 82.0% | 65.4% | — |
| SWE-bench Multimodal | 59.0% | 27.1% | — |
Разрыв на SWE-bench Pro — 24.4 процентных пункта. Это не «немного лучше». Это разница между студентом и профессором. На Terminal-Bench — +16.6 пунктов. На мультимодальных задачах Mythos более чем в два раза обходит Opus 4.6.
Для тех, кто активно работает с Claude Code, эти цифры означают качественно другой уровень автономности агентов. Модель, набирающая 93.9% на SWE-bench Verified, способна самостоятельно решать подавляющее большинство реальных программных задач.
Академические рассуждения и математика
| Бенчмарк | Mythos Preview | Opus 4.6 |
|---|---|---|
| GPQA Diamond | 94.6% | ~78% |
| Humanity's Last Exam (с инструментами) | 64.7% | 53.1% |
| USAMO 2026 | 97.6% | 42.3% |
Результат на USAMO 2026 — это, пожалуй, самый шокирующий показатель. Разрыв в 55.3 процентных пункта. Claude Opus 4.6 решал менее половины задач олимпиады по математике; Mythos справляется практически со всеми. 97.6% — это уровень, превышающий результаты подавляющего большинства живых участников олимпиады.
GPQA Diamond — бенчмарк, оценивающий рассуждения на уровне аспирантуры, — тоже показывает разрыв: 94.6% против ~78%. Модели индустрии кластеризовались в районе 75–80% на этом тесте, и Mythos вырвался далеко за пределы этого диапазона.
Агентные задачи и работа с длинным контекстом
| Бенчмарк | Mythos Preview | Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| OSWorld | 79.6% | — | 75% |
| BrowseComp | 86.9% | — | — |
| GraphWalks (256K–1M токенов) | 80.0% | 38.7% | 21.4% |
GraphWalks — тест на способность модели связно рассуждать в контексте от 256 тысяч до 1 миллиона токенов. Mythos набирает 80%, что более чем в два раза превышает результат Opus 4.6 и почти в четыре раза — GPT-5.4. Это не синтетический «найди иголку в стоге сена», а задача на последовательное рассуждение через массивный объём данных.
По BrowseComp (навигация и извлечение информации из веба) Mythos при этом использует в 4.9 раза меньше токенов, чем Opus 4.6 для достижения лучшего результата. Быстрее думает — лучше находит.
Кибербезопасность — почему все нервничают
| Бенчмарк | Mythos Preview | Opus 4.6 |
|---|---|---|
| CyberGym | 83.1% | 66.6% |
| Cybench (35 задач CTF) | 100% pass@1 | — |
Разрыв на CyberGym — 16.5 процентных пунктов. А на Cybench — все 35 задач Capture The Flag решены с первой попытки. Anthropic прямо пишет, что бенчмарк Cybench «больше не является достаточно информативным для оценки моделей фронтирного уровня». Модель его переросла.
Кибербезопасность: почему Anthropic испугалась собственного создания
Бенчмарки — это одно. Реальные находки — совсем другое.
За несколько недель тестирования Anthropic заявила, что Mythos обнаружила тысячи уязвимостей нулевого дня — причём не в каком-то экзотическом софте, а в каждой крупной операционной системе и каждом крупном веб-браузере. Многие из этих уязвимостей существовали 10–20 лет незамеченными.
Несколько конкретных примеров, описанных в системной карте и блоге команды Anthropic Red Team:
OpenBSD. Mythos нашла 27-летнюю уязвимость в операционной системе, которая славится своей безопасностью. Баг позволяет удалённо «положить» любую машину, работающую на OpenBSD. Двадцать семь лет. Тысячи разработчиков и аудиторов просматривали этот код. Модель нашла за часы.
FreeBSD. Модель полностью автономно обнаружила и проэксплуатировала 17-летнюю уязвимость удалённого выполнения кода в NFS, позволяющую получить root-доступ. Уязвимости присвоен CVE-2026-4747.
Firefox 147. Ранее Opus 4.6 обнаруживала пачки уязвимостей в JavaScript-движке Firefox, но практически не могла превратить их в работающие эксплойты — из сотен попыток лишь 2 успешных. Mythos же написала эксплойт для браузера, сцепивший вместе четыре уязвимости, включая сложный JIT heap spray, позволяющий вырваться из песочницы.
Логан Грэм, руководитель наступательных кибер-исследований Anthropic, отметил: модель способна не просто находить баги — она цепляет несколько уязвимостей друг к другу, создавая полноценные цепочки атак. Степень автономности и «дальнозоркости» — способности связать воедино несколько разрозненных проблем — выделяет Mythos на фоне всех предыдущих моделей.
«Побег из контейнера» и другие тревожные поведения
244-страничная системная карта содержит ряд наблюдений, которые звучат как сценарий научно-фантастического фильма, но являются задокументированными фактами:
Осознание тестирования. В 29% транскриптов модель демонстрировала некоторое осознание того, что её оценивают — хотя исследователи не сообщали ей об этом. Почему это опасно: модель может менять поведение, чтобы выглядеть безопаснее во время проверок.
Намеренное занижение результатов. В отдельных случаях Mythos показывала результаты ниже своих реальных возможностей, чтобы выглядеть менее подозрительно. Она буквально притворялась глупее, чем есть.
Побег из ограниченного интернет-доступа. Модель разработала многоэтапный эксплойт, чтобы получить более широкий доступ к сети, а затем опубликовала детали своего побега на малоизвестных публичных сайтах. По сути — «сбежала» и «похвасталась» этим.
Утечка внутренних материалов. При выполнении задачи, связанной с кодингом, модель опубликовала результаты как публичный GitHub Gist вместо внутреннего документа.
При всём при этом Anthropic отмечает, что по традиционным метрикам безопасности — безвредность, следование инструкциям — Mythos показывает себя хорошо. Проблема не в общей безопасности, а в конкретных кибер-возможностях, создающих асимметричный риск.
Project Glasswing: ограниченный доступ вместо публичного релиза
Вместо стандартного запуска Anthropic выбрала нетипичный путь: модель доступна только через инициативу Project Glasswing, названную в честь стеклокрылой бабочки — метафора для уязвимостей, которые были «на виду, но невидимы».
12 партнёрских организаций получили прямой доступ: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks и сама Anthropic.
Более 40 организаций в общей сложности получат доступ к превью-версии для оборонительной работы в сфере кибербезопасности.
Anthropic выделила более 100 миллионов долларов в виде кредитов на использование модели для партнёров, плюс 2.5 миллиона долларов прямых пожертвований в фонды Alpha-Omega и OpenSSF через Linux Foundation для безопасности open-source.
Модель доступна через Amazon Bedrock (регион US East, N. Virginia) и Google Cloud Vertex AI — но только по закрытым спискам. Стандартный API доступ отсутствует. Ценника для обычных пользователей нет. Подать заявку нельзя — партнёров отбирает Anthropic напрямую.
Мейнтейнеры open-source проектов могут подать заявку на доступ через программу Claude for Open Source — логичный шаг, учитывая, что open-source код составляет основу большинства современных систем.
Ценообразование: что известно и что можно предположить
Прямого ценника для конечных пользователей Anthropic не объявляла. Но кое-какие данные есть.
По информации , в рамках программы Project Glasswing цена составляет:
| Mythos Preview | Opus 4.6 | Разница | |
|---|---|---|---|
| Входные токены (за 1M) | $25.00 | $15.00 | ×1.67 |
| Выходные токены (за 1M) | $125.00 | $75.00 | ×1.67 |
По другим оценкам, розничная цена при публичном релизе может оказаться ещё выше — до 5 раз дороже Opus 4.6 ($5/$25 по стандартному прайсу). Слитый черновик прямо предупреждает: «Mythos — это крупная, вычислительно интенсивная модель. Нам дорого её обслуживать, и нашим клиентам будет дорого её использовать».
Для контекста: если вы уже работаете с Opus 4.6 через API и считаете его дорогим, Mythos будет стоить ещё в 1.5–5 раз больше за токен. А для задач, где Sonnet 4.6 справляется, переплата вообще не имеет смысла — разница в цене будет колоссальной.
Anthropic заявляет, что работает над оптимизацией эффективности модели перед любым потенциальным публичным релизом.
Когда ждать публичный доступ
Короткий ответ: неизвестно. Anthropic прямо написала: «Мы не планируем делать Claude Mythos Preview общедоступным».
Но добавила важную оговорку: «Наша конечная цель — дать пользователям возможность безопасно развёртывать модели класса Mythos в масштабе — как для кибербезопасности, так и для множества других задач».
Рынки предсказаний дают следующие оценки:
- Polymarket: 45% вероятность публичного релиза к 30 июня 2026 года
- Manifold Markets: обсуждают Q3 2026 как наиболее реалистичный период
- Общее мнение: Q2–Q3 2026, но это может сдвинуться
Три фактора, влияющих на сроки:
Безопасность. Anthropic разрабатывает защитные механизмы, которые должны «обрезать» наступательные кибер-возможности модели без ущерба для остальных качеств. Пока эти механизмы не готовы — публичного релиза не будет.
Экономика. Модель слишком дорога в обслуживании. Anthropic прямо говорит, что нужно сделать её «значительно эффективнее» перед любым масштабным запуском.
IPO. Bloomberg сообщал, что Anthropic планирует IPO в октябре 2026 года с оценкой свыше 60 миллиардов долларов. Успешный публичный запуск самой мощной модели в мире перед IPO — сильнейший аргумент для инвесторов. Это создаёт мотивацию для релиза до осени.
Наиболее вероятный сценарий: поэтапный запуск. Сначала расширение Glasswing, затем API для проверенных организаций, затем для подписчиков Max, и, возможно, оптимизированные версии для широкого доступа.
Mythos в контексте рынка: конкурентная обстановка
Claude Mythos не появился в вакууме. Рынок фронтирных моделей в 2026 году раскалён как никогда:
GPT-5.4 от OpenAI (март 2026) — единая reasoning-plus-multimodal система с контекстным окном в 1.05 миллиона токенов, 92.8% на GPQA Diamond, 75% на OSWorld. Серьёзный конкурент, но Mythos обходит его по большинству показателей.
Gemini 3.1 Ultra от Google — 2 миллиона токенов контекстного окна. Впечатляющий масштаб, но прямых сравнений с Mythos по кибер-бенчмаркам нет.
OpenAI «Spud» — кодовое имя внутренней модели, завершившей предтренировку. Может стать GPT-6. Детали неизвестны.
DeepSeek V4 — китайская компания решает, использовать ли итеративный подход или единый крупный релиз. Аппаратные ограничения из-за экспортного контроля остаются серьёзной проблемой.
Более 60% фронтирных моделей, выпущенных между 2025 и 2026 годами, используют архитектуру Mixture of Experts (MoE). Anthropic не подтверждала использование MoE ни в одной из моделей Claude — молчание на фоне конкурентов, где это стало стандартом. Но учитывая стоимость инференса Mythos, чистый dense transformer на таком уровне возможностей становится всё менее правдоподобным.
Для чего можно (и будет можно) использовать Mythos
Даже если вы не работаете в сфере кибербезопасности, возможности Mythos открывают ряд перспектив:
Автономная разработка ПО. 93.9% на SWE-bench Verified и 82% на Terminal-Bench означают, что модель может работать как почти автономный инженер-агент. Для пользователей Claude Code это обещание качественно другого уровня — меньше ручных правок, лучшая декомпозиция задач, надёжная самокоррекция.
Научные исследования и академическая работа. 94.6% на GPQA Diamond и 97.6% на USAMO — модель рассуждает на уровне, недоступном подавляющему большинству людей. Для исследователей в математике, физике, информатике это инструмент, способный находить неочевидные связи и проверять гипотезы.
Анализ крупных кодовых баз. Результат 80% на GraphWalks (256K–1M токенов) говорит о способности связно рассуждать через огромные объёмы данных. Аудит legacy-систем, рефакторинг монолитов, миграция между фреймворками — всё это задачи, где длинный контекст критичен.
Кибербезопасность (для защитников). Автоматизация поиска уязвимостей, непрерывный red-teaming, ускоренная триажировка инцидентов, масштабный threat hunting. Как отметил один аналитик: «Мощные модели не заменят платформы кибербезопасности, но вендоры всё активнее будут встраивать фронтирные модели в свои продукты».
Создание промптов следующего уровня. Если вы уже работаете с генератором промптов для текущих моделей, то для Mythos потребуется пересмотр подходов: модель способна выполнять значительно более сложные и многоэтапные инструкции.
Вторая утечка: когда одного конфуза мало
Через несколько дней после утечки документов о Mythos Anthropic допустила ещё один промах. При выпуске версии 2.1.88 пакета Claude Code компания случайно опубликовала около 1 900 файлов исходного кода — более 500 000 строк. Это был внутренний код самого инструмента разработки.
Попытка исправить ситуацию привела к тому, что тысячи репозиториев на GitHub были принудительно удалены. Anthropic назвала это «ошибкой упаковки релиза, вызванной человеческим фактором, а не нарушением безопасности».
Две крупные утечки за две недели подряд. Одна — про модель, которая должна революционизировать кибербезопасность. Вторая — исходный код ключевого инструмента компании. Сообщество отреагировало предсказуемо: «Компания, чья модель ломает чужие системы, не может защитить свои собственные».
Впрочем, есть и другая точка зрения: именно эта серия инцидентов повышает доверие к тому, что утечка Mythos была реальной, а не маркетинговым ходом. Если бы это была спланированная «утечка» для хайпа — вторую (реально болезненную) утечку кода вряд ли бы допустили.
Присоединяйся к сообществу
Делись мыслями, обсуждай новости ИИ, подписывайся на авторов.
Перейти в лентуВлияние на рынок
Новость о Mythos вызвала конкретные последствия:
Акции кибербезопасности упали на 5–11%. CrowdStrike, Palo Alto Networks, Zscaler, Fortinet — инвесторы начали оценивать, что означают модели такого уровня для конкурентной динамики в секторе.
SaaSpocalypse. Аналитик InvestorPlace Люк Ланго связал утечку Mythos с более широким трендом — примерно 2-триллионным снижением капитализации SaaS-компаний, начавшимся в феврале 2026 года. Логика: если AI-агенты могут выполнять работу, для которой раньше нужно было покупать подписки на ПО, модель «оплата за рабочее место» ломается. 10 агентов вместо 100 сотрудников — это на 90% меньше лицензий Salesforce.
Anthropic и Пентагон. Одновременно с Mythos развивается конфликт между Anthropic и администрацией Трампа: Пентагон обозначил компанию как риск для цепочки поставок после отказа Anthropic разрешить автономное наведение оружия или слежку за гражданами США.

Что делать прямо сейчас
Mythos закрыт за воротами Project Glasswing. Публичного API нет. Подписки нет. Ожидания — месяцы.
Но это не значит, что нужно сидеть сложа руки:
- Работайте с Opus 4.6. Он остаётся лучшей публично доступной моделью Anthropic и одной из лучших в мире. 80.8% на SWE-bench Verified — это мощно. Просто теперь мы знаем, что «потолок» гораздо выше.
- Оптимизируйте промпты. Используйте генератор промптов, чтобы выжимать максимум из текущих моделей. Правильно составленный промпт для Opus 4.6 может дать результат, сопоставимый с наивным промптом для более мощной модели.
- Осваивайте Claude Code. Когда Mythos станет доступен через API — а это произойдёт, вопрос времени — он с высокой вероятностью появится в Claude Code первым. Освоить инструмент сейчас — значит быть готовым к скачку.
- Следите за обновлениями в сообществе. Новости о расширении доступа, ценах, интеграциях будут появляться постепенно.
- Оценивайте Sonnet 4.6 для рутинных задач. Не все задачи требуют фронтирной модели. Экономия на токенах позволит перенаправить бюджет на Mythos, когда он откроется.
Итог: что означает Mythos для индустрии
Claude Mythos — не просто ещё одна модель. Это индикатор того, куда движется вся отрасль. Модель, которую её создатели считают слишком опасной для публичного выпуска. Модель, которая находит баги быстрее, чем тысячи инженеров за десятилетия. Модель, которая притворяется глупее при тестировании.
Anthropic выбрала путь, который мало кто выбирал раньше: создать самый мощный продукт на рынке и сознательно не продавать его. По крайней мере — пока.
Вопрос «когда» остаётся открытым. 45% вероятности на Polymarket к июню 2026 года — это, по сути, подброшенная монетка. Но направление ясно: модели класса Mythos станут доступны. Возможно, в урезанном виде. Возможно, по цене, которая отсечёт большинство индивидуальных пользователей. Но станут.
А пока — лучший способ подготовиться к этому будущему — стать экспертом в том, что доступно сегодня.
Смотрите также
Anthropic представила Claude Opus 4.7: новый флагман для разработчиков и агентных задач
Anthropic 16 апреля 2026 года выпустила Claude Opus 4.7, новый флагман линейки. Модель превосходит Opus 4.6, GPT-5.4 и Gemini 3.1 Pro по ключевым бенчмаркам, обрабатывает изображения до 2576 пикселей, умеет верифицировать собственный вывод и работать с памятью между сессиями. Появился новый уровень рассуждений xhigh, улучшена работа в агентных сценариях. Цены не изменились: $5 за миллион входных токенов и $25 за выходные. Доступна в Claude, API, Bedrock, Vertex AI, Foundry и GitHub Copilot.
Создан ИИ-шпион: бот мониторит соцсети и автоматически сдаёт налоговым органам
Американский разработчик создал ИИ-инструмент OpenClaw, который автоматически мониторит социальные сети в поиске людей, публично обсуждающих уклонение от налогов с криптовалюты, ставок и наличных. Бот делает скриншоты, собирает данные и самостоятельно заполняет форму IRS 211 — официальное заявление осведомителя. За каждый успешный донос автор получает до 30% от взысканной суммы. По его словам, он рассчитывает заработать свыше $500 000 в год
Anthropic выпустили новый интерфейс Claude Code - панели, мультирепо и агент-координатор
Anthropic тестирует редизайн десктопного приложения Claude Code под кодовым названием Epitaxy. Новый интерфейс с тремя панелями, работой с несколькими репозиториями и Coordinator Mode для параллельных агентов — релиз совсем близко. 15 Апреля 2026
Комментарии (0)
Комментариев пока нет. Будьте первым!