Llama 4 Scout — мультимодальная MoE-модель от Meta с рекордным контекстным окном 10 миллионов токенов. 109B общих параметров с 16 экспертами, из которых только 17B активны на каждом токене. Обучена на 40 триллионах токенов на 200 языках.
Архитектура iRoPE с чередованием NoPE-слоёв позволила достичь 10M контекста при обучении на 256K. Поддерживает текст, изображения и видео на входе. Лицензия Llama 4 Community — бесплатна до 700 миллионов MAU.
Ключевые возможности
10M токенов контекста — это примерно 7500 страниц текста. MMLU Pro 74.3%. Через API-провайдеров реальный лимит ~328K из-за серверных ограничений, но self-hosted позволяет использовать полный контекст. MoE с 16 экспертами обеспечивает низкую стоимость инференса: $0.08/1M input через OpenRouter.
Сравнение с конкурентами
Scout vs Maverick: Scout экономичнее (16 экспертов, $0.30/1M output), Maverick мощнее (128 экспертов, $0.60/1M output). По контексту Scout уникален — 10M токенов не предлагает ни одна другая открытая модель. Gemini 3.1 Pro имеет 2M контекст, Claude Opus 4.6 — 1M.
Как начать использовать
API через OpenRouter, Together AI, Fireworks AI или GroqCloud. Self-hosted — скачать веса с HuggingFace (meta-llama/Llama-4-Scout-17B-16E-Instruct), запустить через vLLM или Ollama.