Каталог моделей
💬 Текст💻 Код🧠 Мультимодальная API Open Source

Qwen 2.5 72B

Alibaba CloudДата выхода: 19 сен 2024Контекст: 128K Сайт

Открытая языковая модель Alibaba Cloud с 72 млрд параметров, поддерживает 128K токенов контекста и более 29 языков, включая русский.

Тарифы

Бесплатно
Бесплатно
  • Бесплатно (open source, self-hosted)
Платный
$—
  • Через API Alibaba Cloud от $0.4/1M токенов

Плюсы и минусы

Плюсы

  • Один из сильнейших открытых чекпоинтов в классе 70B+ по бенчмаркам MMLU и HumanEval
  • Поддержка 29+ языков с высоким качеством русскоязычного вывода
  • Контекстное окно 128K токенов — в 2 раза больше большинства аналогов в классе
  • Эффективная работа с кодом: занимает лидирующие позиции среди открытых моделей на HumanEval (86%+)
  • Можно развернуть локально через Ollama, llama.cpp или vLLM

Минусы

  • Требует от 48 ГБ VRAM для полной загрузки в fp16 — необходима мощная видеокарта
  • Скорость инференса на локальном железе уступает закрытым облачным решениям
  • Менее стабильна в следовании сложным структурированным инструкциям по сравнению с GPT-4o

Подробный обзор

Qwen 2.5 72B — флагманская открытая языковая модель Alibaba Cloud, выпущенная в сентябре 2024 года. С 72 миллиардами параметров она стала одной из самых мощных общедоступных моделей в своём ценовом классе, превзойдя многих конкурентов на стандартных академических бенчмарках. Модель обучена на массиве из более чем 18 триллионов токенов — это примерно вдвое больше, чем у предыдущей версии Qwen 2.

Одним из ключевых улучшений Qwen 2.5 стала работа с кодом и математикой. Модель показывает результат выше 86% на HumanEval и значительно превосходит LLaMA 3.1 70B на задачах математического рассуждения. Встроенная поддержка структурированного вывода (JSON mode) и следования инструкциям сделала её привлекательной для разработчиков, которым нужен предсказуемый output без fine-tuning.

Многоязычность — ещё одна сильная сторона модели. Qwen 2.5 72B поддерживает более 29 языков, включая русский, арабский, японский и корейский. Качество русскоязычного вывода существенно улучшилось по сравнению с предыдущим поколением: модель корректно использует падежи, согласует рода и строит сложные синтаксические конструкции. Это делает её одной из лучших открытых альтернатив для задач на русском языке.

Для развёртывания Qwen 2.5 72B доступно несколько форматов: оригинальные веса в формате safetensors (Hugging Face), квантованные GGUF-версии для llama.cpp и AWQ/GPTQ для vLLM. В 4-битном квантовании (Q4_K_M) модель помещается примерно в 41 ГБ VRAM, что делает её доступной для серверов с двумя картами A100 40GB или одной A100 80GB. Модель также доступна через API Alibaba Cloud DashScope и ряд сторонних провайдеров, включая OpenRouter и Together AI.

Лицензия Apache 2.0 позволяет использовать Qwen 2.5 72B в коммерческих продуктах без ограничений. Это выгодно отличает её от некоторых других крупных открытых моделей, которые имеют ограничения на коммерческое использование при большом трафике. Сообщество вокруг модели активно развивается: существуют десятки fine-tuned версий под конкретные задачи, от юридического анализа до написания кода на Rust.

Вопросы и ответы

Чем Qwen 2.5 72B отличается от LLaMA 3.1 70B?+
Qwen 2.5 72B превосходит LLaMA 3.1 70B на большинстве академических бенчмарков, особенно в задачах кодирования и математики. Ключевые преимущества: более широкая многоязычная поддержка (29+ языков против 8), большее контекстное окно (128K против 128K, но с лучшим recall на дальних дистанциях), и улучшенное следование структурированным инструкциям. LLaMA 3.1 может быть предпочтительнее в задачах на английском языке и имеет более развитую экосистему инструментов.
Можно ли запустить Qwen 2.5 72B на обычном компьютере?+
В полном fp16-формате модель требует около 144 ГБ RAM/VRAM, что недоступно для большинства персональных компьютеров. Однако квантованные версии значительно снижают требования: Q4_K_M весит ~41 ГБ и работает на системе с 48 ГБ оперативной памяти (CPU offload через llama.cpp). Для комфортной работы рекомендуется GPU с 48+ ГБ VRAM или несколько потребительских видеокарт суммарным объёмом 40+ ГБ.
Поддерживает ли Qwen 2.5 72B работу с изображениями?+
Базовая версия Qwen 2.5 72B работает только с текстом. Для работы с изображениями существует отдельная мультимодальная версия Qwen2-VL, которая поддерживает анализ изображений, документов и видео. Qwen2-VL доступна в версиях 2B, 7B и 72B.

Похожие модели

Текст

GigaChat 2.0

Сбер

Флагманская российская языковая модель от Сбера. Контекст 128K токенов, долговременная память, встроенный интерпретатор кода и автономный веб-поиск. Лучшее понимание русского языка среди всех моделей.

Бесплатно
Текст

Qwen 3

Alibaba Cloud

Серия LLM от Alibaba с гибридным рассуждением. 8 моделей: 6 плотных (0.6B-32B) и 2 MoE (30B/3B, 235B/22B). 36 трлн токенов обучения, 119 языков. Думающий режим для сложных задач, быстрый для простых. Apache 2.0.

$0.05/1M input
Мультимодальная

Claude Sonnet 4.6

Anthropic

Оптимальная модель Anthropic по соотношению цены и качества из семейства Claude 4.6. Приближается к Opus по интеллекту при значительно меньшей стоимости. Отлично справляется с кодингом, анализом документов, агентными задачами и computer use. Контекст 1M токенов, до 64K токенов на выходе. Идеальна для повседневных рабочих задач, где нужен баланс между скоростью, качеством и ценой.

$20/мес
Мультимодальная

GPT-5.4

OpenAI

Флагманская модель OpenAI с контекстным окном в 1 млн токенов. Лидирует в рейтингах по комплексным задачам: рассуждения, анализ, генерация кода и работа с длинными документами. Доступна в версиях Standard, Thinking и Pro. Поддерживает текст, изображения и код. На 33% меньше галлюцинаций по сравнению с GPT-5.2

Бесплатно
Мультимодальная

Muse Spark

Meta

Первая закрытая модель Meta от Superintelligence Labs. Мультимодальная модель рассуждений: текст, изображения, речь. Уникальный Contemplating Mode — мульти-агентная параллельная система. Три режима: Instant, Thinking, Contemplating. Бесплатно через meta.ai.

Бесплатно

Используете Qwen 2.5 72B?

Поделитесь опытом в нашем сообществе

Написать пост