Llama 4 Scout vs Qwen 3 — сравнение бенчмарков

Llama 4 Scout

Бенчмарки

MMLU

Llama

82.1

Qwen

87.1

MATH

Llama

71.3

Qwen

83.9

HumanEval

Llama

78.4

Qwen

88.5

Arena Elo

Llama

1248

Qwen

1289

Средний балл: Llama 370vsQwen 387.1

* Бенчмарки — стандартизированные тесты для оценки качества ИИ-моделей. Чем выше балл, тем лучше модель справляется с задачей.

Llama 4 Scout

Meta

MoE-модель Meta с 16 экспертами. 109B параметров, 17B активных. Рекордный контекст 10 миллионов токенов. Текст, изображения, видео. 40 трлн токенов обучения, 200 языков. Llama 4 Community License.

Тарифы, обзор, бенчмарки →

Qwen 3

Alibaba Cloud

Серия LLM от Alibaba с гибридным рассуждением. 8 моделей: 6 плотных (0.6B-32B) и 2 MoE (30B/3B, 235B/22B). 36 трлн токенов обучения, 119 языков. Думающий режим для сложных задач, быстрый для простых. Apache 2.0.

Тарифы, обзор, бенчмарки →

Вопросы и ответы

Qwen 3 лучше для кода?+

Да, Qwen 3 72B показывает HumanEval 88.5% против 78.4% у Scout.

Какая модель лучше понимает русский?+

Llama 4 Scout немного лучше справляется с русским языком.

Есть ли разница в скорости?+

Llama 4 Scout на Groq работает быстрее, чем большие версии Qwen 3.