Grok 3 vs Qwen 3 — сравнение бенчмарков
Grok 3 лидирует по большинству бенчмарков, но Qwen 3 — сильнейший открытый конкурент с минимальным отставанием.
Бенчмарки
* Бенчмарки — стандартизированные тесты для оценки качества ИИ-моделей. Чем выше балл, тем лучше модель справляется с задачей.
Grok 3 и Qwen 3 от Alibaba — одно из наиболее захватывающих противостояний среди топовых языковых моделей. Qwen 3 практически догоняет Grok 3, оставаясь при этом открытой моделью.
Grok 3 лидирует: MMLU 91% против 87%, HumanEval 84% против 79%, GSM8K 95% против 91%. Разрыв небольшой, что делает Qwen 3 впечатляющим достижением.
Для пользователей без подписки X Premium+ Qwen 3 — лучший открытый вариант. Grok 3 остаётся лидером, но открытость и качество Qwen 3 делают его серьёзной альтернативой.
Флагманская модель от xAI (Илон Маск). Контекст 131K токенов, режим рассуждений, интеграция с X (Twitter) для доступа к данным в реальном времени. Минимальная цензура среди фронтирных моделей.
Тарифы, обзор, бенчмарки →Серия LLM от Alibaba с гибридным рассуждением. 8 моделей: 6 плотных (0.6B-32B) и 2 MoE (30B/3B, 235B/22B). 36 трлн токенов обучения, 119 языков. Думающий режим для сложных задач, быстрый для простых. Apache 2.0.
Тарифы, обзор, бенчмарки →