DeepSeek V4 vs Qwen 3 — сравнение бенчмарков
DeepSeek V4 мощнее на сложных задачах, Qwen 3 — больше вариантов размеров и Apache 2.0.
Бенчмарки
* Бенчмарки — стандартизированные тесты для оценки качества ИИ-моделей. Чем выше балл, тем лучше модель справляется с задачей.
Главное отличие
Qwen 3 превосходит DeepSeek V3.2 в научных задачах (GPQA Diamond 88.4% vs 79.9%) и кодинге (SWE-bench 75% vs 67.8%). MMLU-Pro одинаков (85%). Qwen 3 доступен в множестве размеров от 0.6B до 235B, а DeepSeek только в одном.
Когда выбрать DeepSeek V4
DeepSeek выше по Arena Elo (1421 vs 1400) и имеет проверенную экосистему развёртывания. Полностью открытая MIT-лицензия без ограничений. Проверенная в продакшене модель с предсказуемым поведением.
Когда выбрать Qwen 3
Qwen 3 выигрывает гибкостью: доступны модели от 0.6B до 235B параметров для любого железа. Лучше в научных задачах и кодинге. Apache 2.0 лицензия. Отличный выбор для edge-устройств и мобильных приложений.
Ожидаемая флагманская open-source модель от DeepSeek. 1 трлн параметров (MoE, ~37 млрд активных), контекст 1 млн токенов, архитектура Engram для условной памяти. Первая фронтирная модель на чипах Huawei Ascend без NVIDIA. Предварительные бенчмарки: SWE-bench 80%+, HumanEval 90%. Ожидаемая цена — в 20–50 раз дешевле западных аналогов. Полный релиз ожидается в апреле 2026.
Тарифы, обзор, бенчмарки →Серия LLM от Alibaba с гибридным рассуждением. 8 моделей: 6 плотных (0.6B-32B) и 2 MoE (30B/3B, 235B/22B). 36 трлн токенов обучения, 119 языков. Думающий режим для сложных задач, быстрый для простых. Apache 2.0.
Тарифы, обзор, бенчмарки →