Claude Opus 4.6 vs GLM-5.1 — сравнение бенчмарков

Claude Opus 4.6

Anthropic

GLM-5.1

Zhipu AI

Победитель

GLM-5.1

GLM-5.1 побеждает на SWE-Bench Pro (58.4% vs ~50%). Claude Opus — универсальнее.

Бенчмарки

SWE-bench Verified

Claude

80.8

GLM-5.1

77.8

GPQA Diamond

Claude

91.3

GLM-5.1

Arena Elo

Claude

1502

GLM-5.1

1451

AIME 2025

Claude

99.8

GLM-5.1

92.7

Open source

Claude

GLM-5.1

Средний балл: Claude 354.8vsGLM-5.1 343.5

* Бенчмарки — стандартизированные тесты для оценки качества ИИ-моделей. Чем выше балл, тем лучше модель справляется с задачей.

Claude Opus 4.6

Anthropic

Самая мощная и интеллектуальная модель Anthropic из семейства Claude 4.6. Отлично справляется со сложными задачами: глубокий анализ, написание кода, работа с большими документами, мультимодальный ввод (текст и изображения). Поддерживает расширенное мышление, вызов инструментов и структурированные ответы. Идеальна для задач, требующих максимальной точности и рассуждений

Тарифы, обзор, бенчмарки →

GLM-5.1

Zhipu AI

Флагманская агентная модель для кодинга. 744B параметров MoE, 40B активных. Обучена на чипах Huawei Ascend 910B. Лидер SWE-Bench Pro (58.4%). Поддерживает 600+ итераций без деградации. MIT лицензия. Максимальный output 128K токенов.

Тарифы, обзор, бенчмарки →

Вопросы и ответы

Для кода?+

GLM-5.1 — лидер SWE-Bench Pro. Claude Opus — лучше для общих задач.

Open source?+

GLM — MIT. Claude — закрытая.

Output?+

GLM: 128K. Claude: 32K. GLM в 4 раза больше.

Агентность?+

GLM — 600+ итераций без деградации. Claude — до 200.