GigaChat 2.0 vs Qwen 3 — сравнение бенчмарков
Qwen 3 от Alibaba превосходит GigaChat 2.0 по международным бенчмаркам и многоязычности. GigaChat 2.0 лидирует в понимании русского языка и соответствии российскому законодательству.
Бенчмарки
* Бенчмарки — стандартизированные тесты для оценки качества ИИ-моделей. Чем выше балл, тем лучше модель справляется с задачей.
GigaChat 2.0 от Сбербанка и Qwen 3 от Alibaba Cloud — языковые модели из разных стран, но со схожей задачей: создание мощного локализованного ИИ. Это сравнение особенно интересно для российского рынка.
Qwen 3 превосходит по международным тестам: MMLU 87.1% против 74.8%, HumanEval 86.7% против 68.2%. GigaChat 2.0 остаётся лидером в Русском MMLU — 88.1% против 79.4% у Qwen 3.
Для разработчиков, ищущих мощную многоязычную модель с открытыми весами, Qwen 3 является превосходным выбором. Российским компаниям, для которых критичны русский язык и локальное хранение данных, GigaChat 2.0 предлагает непревзойдённую поддержку.
Флагманская российская языковая модель от Сбера. Контекст 128K токенов, долговременная память, встроенный интерпретатор кода и автономный веб-поиск. Лучшее понимание русского языка среди всех моделей.
Тарифы, обзор, бенчмарки →Серия LLM от Alibaba с гибридным рассуждением. 8 моделей: 6 плотных (0.6B-32B) и 2 MoE (30B/3B, 235B/22B). 36 трлн токенов обучения, 119 языков. Думающий режим для сложных задач, быстрый для простых. Apache 2.0.
Тарифы, обзор, бенчмарки →