Мощная открытая модель-смесь экспертов (MoE) от Mistral AI с 141 млрд параметров. Флагман открытого источника с контекстом 64K и сильными показателями в коде и рассуждениях.
—
Тарифы
Бесплатно
Бесплатно
false
input
$—
$0.90 за 1M токенов
output
$—
$0.90 за 1M токенов
selfHosted
$—
бесплатно при самостоятельном развёртывании
Плюсы и минусы
Плюсы
Открытый исходный код — можно развернуть на собственных серверах
141 млрд параметров при активации только 39 млрд — высокая эффективность
Контекстное окно 64K токенов — обработка длинных документов
Лидирующие показатели на бенчмарках среди открытых моделей
Поддержка 5 языков: английский, французский, немецкий, испанский, итальянский
Минусы
Требует значительных ресурсов для самостоятельного развёртывания (2x A100)
Качество работы с русским языком ниже, чем у специализированных моделей
Уступает Claude Opus и GPT-4o в сложных аналитических задачах
Подробный обзор
Вопросы и ответы
Чем архитектура MoE отличается от обычного трансформера?+
В обычных трансформерах все параметры активируются для каждого токена. В архитектуре MoE модель разделена на несколько экспертных блоков, и маршрутизатор выбирает только 2–4 из них для каждого токена. Это позволяет иметь большое число параметров, активируя лишь часть при каждом вычислении.
Какое железо нужно для запуска Mixtral 8x22B?+
Для работы с Mixtral 8x22B в формате float16 требуется примерно 280 ГБ видеопамяти — например, 4x NVIDIA A100 80GB. С квантизацией до 4-bit требования снижаются до 60–80 ГБ, что позволяет запустить модель на 2x A100 40GB или 4x RTX 4090.
Можно ли использовать Mixtral 8x22B бесплатно?+
Да, поскольку модель открытая (Apache 2.0), её можно скачать с Hugging Face и запустить бесплатно на собственном оборудовании. Через API Mistral AI тарификация составляет $0.90 за 1M токенов как для входящих, так и для исходящих токенов.
Mixtral 8x22B — флагманская открытая языковая модель компании Mistral AI, построенная на архитектуре Mixture of Experts (MoE). Модель содержит 141 миллиард параметров, однако при каждом запросе активируются только около 39 миллиардов, что обеспечивает высокую скорость работы при сохранении выдающегося качества ответов.
Архитектура MoE (смесь экспертов) позволяет направлять каждый токен к наиболее подходящему эксперту внутри модели. Разные части модели специализируются на разных задачах — код, математика, языки, фактические знания — что обеспечивает высокое качество по широкому спектру задач при экономии вычислительных ресурсов.
На публичных бенчмарках Mixtral 8x22B уверенно конкурирует с GPT-3.5 Turbo и превосходит большинство других открытых моделей. На MMLUмодель набирает около 77.8%, на HumanEval — 75.8%, что ставит её в один ряд с ведущими коммерческими решениями предыдущего поколения.
Расширенное контекстное окно в 64K токенов открывает возможности для анализа целых кодовых репозиториев, обработки длинных юридических документов, научных статей или книг целиком. Это делает модель особенно ценной для задач RAG и работы с большими документами.
Модель распространяется под лицензией Apache 2.0, что позволяет использовать её коммерчески без ограничений. Веса доступны на Hugging Face, а для развёртывания требуется сервер с минимум двумя видеокартами NVIDIA A100 80GB или эквивалентными ускорителями.