Llama 4 Nemotron
Доработанная NVIDIA версия Llama 4 Maverick от Meta — 17B активных параметров из 400B MoE. Лидер открытых моделей по качеству рассуждений, превосходит GPT-4o и Claude Sonnet на ключевых бенчмарках.
Тарифы
- Скачать веса бесплатно
- Запуск на своём GPU (минимум 2×A100)
- Полный контроль над данными
- Бесплатный API через build.nvidia.com
- Лимиты по запросам
- Управляемая инфраструктура
Плюсы и минусы
Плюсы
- Лучшая open-source модель по рассуждениям
- MoE архитектура — быстрая при высоком качестве
- Бесплатна и полностью открыта
- Превосходит GPT-4o в бенчмарках
Минусы
- Требует мощного GPU для self-hosted (2×A100)
- Уступает фронтирным закрытым моделям (Opus 4.6, Gemini 3.1)
- Контекстное окно меньше, чем у конкурентов (128K vs 1-2M)
Подробный обзор
Llama 4 Nemotron — это дообученная NVIDIA версия Llama 4 Maverick от Meta. Модель использует архитектуру Mixture of Experts (MoE): при общем объёме в 400 миллиардов параметров для каждого запроса активируются только 17 миллиардов, что обеспечивает скорость малой модели при качестве большой.
Почему это важно
Впервые open-source модель стабильно превосходит GPT-4o по ключевым бенчмаркам. Llama 4 Nemotron набирает 85.4% на MMLU-Pro, 78.9% на GPQA Diamond и лидирует в математических тестах. Компании могут получить качество коммерческих моделей без подписок.
Архитектура MoE
Mixture of Experts — ключевое преимущество модели. Вместо активации всех 400B параметров, маршрутизатор выбирает нужных экспертов для каждого токена. Это снижает затраты в 20+ раз при сохранении качества. На практике Llama 4 Nemotron работает быстрее моделей с 70B плотными параметрами.
Как использовать
Самый простой способ — API через NVIDIA build.nvidia.com (бесплатно с лимитами). Для self-hosted нужно минимум 2 GPU A100 80GB. Квантизированные версии (AWQ, GPTQ) позволяют запускать модель на одном A100 или потребительских GPU с RTX 4090.