Claude Opus 4.6 vs Qwen 3 — сравнение бенчмарков

Ничья

Claude Opus 4.6 и Qwen 3 — конкуренты высшего уровня с разными сильными сторонами: Opus лучше рассуждает, Qwen 3 сильнее в математике и программировании.

Бенчмарки

MMLU

Claude

Qwen

HumanEval

Claude

Qwen

MATH

Claude

Qwen

Arena Elo

Claude

1320

Qwen

1310

Средний балл: Claude 395.8vsQwen 395.8

* Бенчмарки — стандартизированные тесты для оценки качества ИИ-моделей. Чем выше балл, тем лучше модель справляется с задачей.

Claude Opus 4.6

Anthropic

Самая мощная и интеллектуальная модель Anthropic из семейства Claude 4.6. Отлично справляется со сложными задачами: глубокий анализ, написание кода, работа с большими документами, мультимодальный ввод (текст и изображения). Поддерживает расширенное мышление, вызов инструментов и структурированные ответы. Идеальна для задач, требующих максимальной точности и рассуждений

Тарифы, обзор, бенчмарки →

Qwen 3

Alibaba Cloud

Серия LLM от Alibaba с гибридным рассуждением. 8 моделей: 6 плотных (0.6B-32B) и 2 MoE (30B/3B, 235B/22B). 36 трлн токенов обучения, 119 языков. Думающий режим для сложных задач, быстрый для простых. Apache 2.0.

Тарифы, обзор, бенчмарки →

Вопросы и ответы

Qwen 3 конкурирует с Claude Opus 4.6?+

Да, это ближайшие конкуренты. По математике и коду Qwen 3 даже опережает: HumanEval 92 vs 88, MATH 91 vs 84.

Qwen 3 от какой компании?+

Qwen 3 разработан Alibaba Cloud. Доступен как открытая модель (веса) и через API Alibaba Cloud.

Opus 4.6 лучше Qwen 3 в рассуждениях?+

Opus 4.6 немного превосходит в общих рассуждениях и следовании инструкциям, MMLU 91 vs 90. Разница минимальна.

Qwen 3 доступен бесплатно?+

Открытые версии Qwen 3 доступны на Hugging Face. Коммерческий API через Alibaba Cloud оплачивается по токенам.