Llama 4 Scout
MoE-модель Meta с 16 экспертами. 109B параметров, 17B активных. Рекордный контекст 10 миллионов токенов. Текст, изображения, видео. 40 трлн токенов обучения, 200 языков. Llama 4 Community License.
Тарифы
- $0.30/1M output
- 10M контекст
- Открытые веса
- HuggingFace
Плюсы и минусы
Плюсы
- Рекордный контекст 10M токенов
- MoE: 17B из 109B активны — низкая стоимость
- Нативная мультимодальность
- Открытые веса
Минусы
- Реальный контекст через API ~328K
- Лицензия не OSI — ограничение 700M MAU
- Уступает крупным моделям в рассуждениях
- Высокие требования к памяти
Подробный обзор
Что такое Llama 4 Scout
Llama 4 Scout — мультимодальная MoE-модель от Meta с рекордным контекстным окном 10 миллионов токенов. 109B общих параметров с 16 экспертами, из которых только 17B активны на каждом токене. Обучена на 40 триллионах токенов на 200 языках.
Архитектура iRoPE с чередованием NoPE-слоёв позволила достичь 10M контекста при обучении на 256K. Поддерживает текст, изображения и видео на входе. Лицензия Llama 4 Community — бесплатна до 700 миллионов MAU.
Ключевые возможности
10M токенов контекста — это примерно 7500 страниц текста. MMLU Pro 74.3%. Через API-провайдеров реальный лимит ~328K из-за серверных ограничений, но self-hosted позволяет использовать полный контекст. MoE с 16 экспертами обеспечивает низкую стоимость инференса: $0.08/1M input через OpenRouter.
Сравнение с конкурентами
Scout vs Maverick: Scout экономичнее (16 экспертов, $0.30/1M output), Maverick мощнее (128 экспертов, $0.60/1M output). По контексту Scout уникален — 10M токенов не предлагает ни одна другая открытая модель. Gemini 3.1 Pro имеет 2M контекст, Claude Opus 4.6 — 1M.
Как начать использовать
API через OpenRouter, Together AI, Fireworks AI или GroqCloud. Self-hosted — скачать веса с HuggingFace (meta-llama/Llama-4-Scout-17B-16E-Instruct), запустить через vLLM или Ollama.