Qwen 2.5 72B
Открытая языковая модель Alibaba Cloud с 72 млрд параметров, поддерживает 128K токенов контекста и более 29 языков, включая русский.
Тарифы
- Бесплатно (open source, self-hosted)
- Через API Alibaba Cloud от $0.4/1M токенов
Плюсы и минусы
Плюсы
- Один из сильнейших открытых чекпоинтов в классе 70B+ по бенчмаркам MMLU и HumanEval
- Поддержка 29+ языков с высоким качеством русскоязычного вывода
- Контекстное окно 128K токенов — в 2 раза больше большинства аналогов в классе
- Эффективная работа с кодом: занимает лидирующие позиции среди открытых моделей на HumanEval (86%+)
- Можно развернуть локально через Ollama, llama.cpp или vLLM
Минусы
- Требует от 48 ГБ VRAM для полной загрузки в fp16 — необходима мощная видеокарта
- Скорость инференса на локальном железе уступает закрытым облачным решениям
- Менее стабильна в следовании сложным структурированным инструкциям по сравнению с GPT-4o
Подробный обзор
Qwen 2.5 72B — флагманская открытая языковая модель Alibaba Cloud, выпущенная в сентябре 2024 года. С 72 миллиардами параметров она стала одной из самых мощных общедоступных моделей в своём ценовом классе, превзойдя многих конкурентов на стандартных академических бенчмарках. Модель обучена на массиве из более чем 18 триллионов токенов — это примерно вдвое больше, чем у предыдущей версии Qwen 2.
Одним из ключевых улучшений Qwen 2.5 стала работа с кодом и математикой. Модель показывает результат выше 86% на HumanEval и значительно превосходит LLaMA 3.1 70B на задачах математического рассуждения. Встроенная поддержка структурированного вывода (JSON mode) и следования инструкциям сделала её привлекательной для разработчиков, которым нужен предсказуемый output без fine-tuning.
Многоязычность — ещё одна сильная сторона модели. Qwen 2.5 72B поддерживает более 29 языков, включая русский, арабский, японский и корейский. Качество русскоязычного вывода существенно улучшилось по сравнению с предыдущим поколением: модель корректно использует падежи, согласует рода и строит сложные синтаксические конструкции. Это делает её одной из лучших открытых альтернатив для задач на русском языке.
Для развёртывания Qwen 2.5 72B доступно несколько форматов: оригинальные веса в формате safetensors (Hugging Face), квантованные GGUF-версии для llama.cpp и AWQ/GPTQ для vLLM. В 4-битном квантовании (Q4_K_M) модель помещается примерно в 41 ГБ VRAM, что делает её доступной для серверов с двумя картами A100 40GB или одной A100 80GB. Модель также доступна через API Alibaba Cloud DashScope и ряд сторонних провайдеров, включая OpenRouter и Together AI.
Лицензия Apache 2.0 позволяет использовать Qwen 2.5 72B в коммерческих продуктах без ограничений. Это выгодно отличает её от некоторых других крупных открытых моделей, которые имеют ограничения на коммерческое использование при большом трафике. Сообщество вокруг модели активно развивается: существуют десятки fine-tuned версий под конкретные задачи, от юридического анализа до написания кода на Rust.