Alibaba CloudДата выхода: 19 сен 2024Контекст: 128K Сайт
Открытая языковая модель Alibaba Cloud с 72 млрд параметров, поддерживает 128K токенов контекста и более 29 языков, включая русский.
—
Тарифы
Бесплатно
Бесплатно
Бесплатно (open source, self-hosted)
Платный
$—
Через API Alibaba Cloud от $0.4/1M токенов
Плюсы и минусы
Плюсы
Один из сильнейших открытых чекпоинтов в классе 70B+ по бенчмаркам MMLU и HumanEval
Поддержка 29+ языков с высоким качеством русскоязычного вывода
Контекстное окно 128K токенов — в 2 раза больше большинства аналогов в классе
Эффективная работа с кодом: занимает лидирующие позиции среди открытых моделей на HumanEval (86%+)
Можно развернуть локально через Ollama, llama.cpp или vLLM
Минусы
Требует от 48 ГБ VRAM для полной загрузки в fp16 — необходима мощная видеокарта
Скорость инференса на локальном железе уступает закрытым облачным решениям
Менее стабильна в следовании сложным структурированным инструкциям по сравнению с GPT-4o
Подробный обзор
Вопросы и ответы
Чем Qwen 2.5 72B отличается от LLaMA 3.1 70B?+
Qwen 2.5 72B превосходит LLaMA 3.1 70B на большинстве академических бенчмарков, особенно в задачах кодирования и математики. Ключевые преимущества: более широкая многоязычная поддержка (29+ языков против 8), большее контекстное окно (128K против 128K, но с лучшим recall на дальних дистанциях), и улучшенное следование структурированным инструкциям. LLaMA 3.1 может быть предпочтительнее в задачах на английском языке и имеет более развитую экосистему инструментов.
Можно ли запустить Qwen 2.5 72B на обычном компьютере?+
В полном fp16-формате модель требует около 144 ГБ RAM/VRAM, что недоступно для большинства персональных компьютеров. Однако квантованные версии значительно снижают требования: Q4_K_M весит ~41 ГБ и работает на системе с 48 ГБ оперативной памяти (CPU offload через llama.cpp). Для комфортной работы рекомендуется GPU с 48+ ГБ VRAM или несколько потребительских видеокарт суммарным объёмом 40+ ГБ.
Поддерживает ли Qwen 2.5 72B работу с изображениями?+
Базовая версия Qwen 2.5 72B работает только с текстом. Для работы с изображениями существует отдельная мультимодальная версия Qwen2-VL, которая поддерживает анализ изображений, документов и видео. Qwen2-VL доступна в версиях 2B, 7B и 72B.
Qwen 2.5 72B — флагманская открытая языковая модель Alibaba Cloud, выпущенная в сентябре 2024 года. С 72 миллиардами параметров она стала одной из самых мощных общедоступных моделей в своём ценовом классе, превзойдя многих конкурентов на стандартных академических бенчмарках. Модель обучена на массиве из более чем 18 триллионов токенов — это примерно вдвое больше, чем у предыдущей версии Qwen 2.
Одним из ключевых улучшений Qwen 2.5 стала работа с кодом и математикой. Модель показывает результат выше 86% на HumanEval и значительно превосходит LLaMA 3.1 70B на задачах математического рассуждения. Встроенная поддержка структурированного вывода (JSON mode) и следования инструкциям сделала её привлекательной для разработчиков, которым нужен предсказуемый output без fine-tuning.
Многоязычность — ещё одна сильная сторона модели. Qwen 2.5 72B поддерживает более 29 языков, включая русский, арабский, японский и корейский. Качество русскоязычного вывода существенно улучшилось по сравнению с предыдущим поколением: модель корректно использует падежи, согласует рода и строит сложные синтаксические конструкции. Это делает её одной из лучших открытых альтернатив для задач на русском языке.
Для развёртывания Qwen 2.5 72B доступно несколько форматов: оригинальные веса в формате safetensors (Hugging Face), квантованные GGUF-версии для llama.cpp и AWQ/GPTQ для vLLM. В 4-битном квантовании (Q4_K_M) модель помещается примерно в 41 ГБ VRAM, что делает её доступной для серверов с двумя картами A100 40GB или одной A100 80GB. Модель также доступна через API Alibaba Cloud DashScope и ряд сторонних провайдеров, включая OpenRouter и Together AI.
Лицензия Apache 2.0 позволяет использовать Qwen 2.5 72B в коммерческих продуктах без ограничений. Это выгодно отличает её от некоторых других крупных открытых моделей, которые имеют ограничения на коммерческое использование при большом трафике. Сообщество вокруг модели активно развивается: существуют десятки fine-tuned версий под конкретные задачи, от юридического анализа до написания кода на Rust.