NVIDIA + MetaДата выхода: 20 мар 2026Контекст: 128K tokens Сайт
Доработанная NVIDIA версия Llama 4 Maverick от Meta — 17B активных параметров из 400B MoE. Лидер открытых моделей по качеству рассуждений, превосходит GPT-4o и Claude Sonnet на ключевых бенчмарках.
Контекстное окно меньше, чем у конкурентов (128K vs 1-2M)
Подробный обзор
Вопросы и ответы
Чем Llama 4 Nemotron отличается от обычной Llama 4?+
NVIDIA дополнительно обучила модель на задачах рассуждений с использованием Neural Architecture Search. Результат — на 5-10% выше на бенчмарках при тех же затратах.
Можно ли запустить локально?+
Да, веса полностью открыты. Для полной модели нужно минимум 2×A100 80GB. Есть квантизированные версии для потребительских GPU.
Что лучше — Nemotron или DeepSeek V4?+
Nemotron сильнее в рассуждениях и math, DeepSeek V4 лучше в кодинге и мультимодальных задачах.
Есть ли бесплатный API?+
Да, через NVIDIA build.nvidia.com с лимитами. Также доступна через Groq, Together AI и других провайдеров.
Llama 4 Nemotron — это дообученная NVIDIA версия Llama 4 Maverick от Meta. Модель использует архитектуру Mixture of Experts (MoE): при общем объёме в 400 миллиардов параметров для каждого запроса активируются только 17 миллиардов, что обеспечивает скорость малой модели при качестве большой.
Почему это важно
Впервые open-source модель стабильно превосходит GPT-4o по ключевым бенчмаркам. Llama 4 Nemotron набирает 85.4% на MMLU-Pro, 78.9% на GPQA Diamond и лидирует в математических тестах. Компании могут получить качество коммерческих моделей без подписок.
Архитектура MoE
Mixture of Experts — ключевое преимущество модели. Вместо активации всех 400B параметров, маршрутизатор выбирает нужных экспертов для каждого токена. Это снижает затраты в 20+ раз при сохранении качества. На практике Llama 4 Nemotron работает быстрее моделей с 70B плотными параметрами.
Как использовать
Самый простой способ — API через NVIDIA build.nvidia.com (бесплатно с лимитами). Для self-hosted нужно минимум 2 GPU A100 80GB. Квантизированные версии (AWQ, GPTQ) позволяют запускать модель на одном A100 или потребительских GPU с RTX 4090.