GPT-5.4 vs Qwen 3 — сравнение бенчмарков
GPT-5.4 лидирует по общим бенчмаркам. Qwen 3 от Alibaba — сильный конкурент, особенно в задачах на китайском языке и математике, при этом доступный бесплатно.
Бенчмарки
* Бенчмарки — стандартизированные тесты для оценки качества ИИ-моделей. Чем выше балл, тем лучше модель справляется с задачей.
Qwen 3 от Alibaba Cloud — один из ближайших конкурентов GPT-5.4 среди открытых моделей. С MMLU 87 и HumanEval 84 Qwen 3 демонстрирует производительность, близкую к флагману OpenAI, при нулевой стоимости.
GPT-5.4 опережает по рассуждению и следованию инструкциям. Qwen 3 выигрывает для азиатских языков и доступна для коммерческого использования без ограничений. Это делает её привлекательной для стартапов.
Флагманская модель OpenAI с контекстным окном в 1 млн токенов. Лидирует в рейтингах по комплексным задачам: рассуждения, анализ, генерация кода и работа с длинными документами. Доступна в версиях Standard, Thinking и Pro. Поддерживает текст, изображения и код. На 33% меньше галлюцинаций по сравнению с GPT-5.2
Тарифы, обзор, бенчмарки →Серия LLM от Alibaba с гибридным рассуждением. 8 моделей: 6 плотных (0.6B-32B) и 2 MoE (30B/3B, 235B/22B). 36 трлн токенов обучения, 119 языков. Думающий режим для сложных задач, быстрый для простых. Apache 2.0.
Тарифы, обзор, бенчмарки →