Каталог моделей
💬 Текст💻 Код API Open Source

Mixtral 8x22B

Mistral AIДата выхода: 17 апр 2024Контекст: 64K Сайт

Мощная открытая модель-смесь экспертов (MoE) от Mistral AI с 141 млрд параметров. Флагман открытого источника с контекстом 64K и сильными показателями в коде и рассуждениях.

Тарифы

Бесплатно
Бесплатно
  • false
input
$—
  • $0.90 за 1M токенов
output
$—
  • $0.90 за 1M токенов
selfHosted
$—
  • бесплатно при самостоятельном развёртывании

Плюсы и минусы

Плюсы

  • Открытый исходный код — можно развернуть на собственных серверах
  • 141 млрд параметров при активации только 39 млрд — высокая эффективность
  • Контекстное окно 64K токенов — обработка длинных документов
  • Лидирующие показатели на бенчмарках среди открытых моделей
  • Поддержка 5 языков: английский, французский, немецкий, испанский, итальянский

Минусы

  • Требует значительных ресурсов для самостоятельного развёртывания (2x A100)
  • Качество работы с русским языком ниже, чем у специализированных моделей
  • Уступает Claude Opus и GPT-4o в сложных аналитических задачах

Подробный обзор

Mixtral 8x22B — флагманская открытая языковая модель компании Mistral AI, построенная на архитектуре Mixture of Experts (MoE). Модель содержит 141 миллиард параметров, однако при каждом запросе активируются только около 39 миллиардов, что обеспечивает высокую скорость работы при сохранении выдающегося качества ответов.

Архитектура MoE (смесь экспертов) позволяет направлять каждый токен к наиболее подходящему эксперту внутри модели. Разные части модели специализируются на разных задачах — код, математика, языки, фактические знания — что обеспечивает высокое качество по широкому спектру задач при экономии вычислительных ресурсов.

На публичных бенчмарках Mixtral 8x22B уверенно конкурирует с GPT-3.5 Turbo и превосходит большинство других открытых моделей. На MMLU модель набирает около 77.8%, на HumanEval — 75.8%, что ставит её в один ряд с ведущими коммерческими решениями предыдущего поколения.

Расширенное контекстное окно в 64K токенов открывает возможности для анализа целых кодовых репозиториев, обработки длинных юридических документов, научных статей или книг целиком. Это делает модель особенно ценной для задач RAG и работы с большими документами.

Модель распространяется под лицензией Apache 2.0, что позволяет использовать её коммерчески без ограничений. Веса доступны на Hugging Face, а для развёртывания требуется сервер с минимум двумя видеокартами NVIDIA A100 80GB или эквивалентными ускорителями.

Вопросы и ответы

Чем архитектура MoE отличается от обычного трансформера?+
В обычных трансформерах все параметры активируются для каждого токена. В архитектуре MoE модель разделена на несколько экспертных блоков, и маршрутизатор выбирает только 2–4 из них для каждого токена. Это позволяет иметь большое число параметров, активируя лишь часть при каждом вычислении.
Какое железо нужно для запуска Mixtral 8x22B?+
Для работы с Mixtral 8x22B в формате float16 требуется примерно 280 ГБ видеопамяти — например, 4x NVIDIA A100 80GB. С квантизацией до 4-bit требования снижаются до 60–80 ГБ, что позволяет запустить модель на 2x A100 40GB или 4x RTX 4090.
Можно ли использовать Mixtral 8x22B бесплатно?+
Да, поскольку модель открытая (Apache 2.0), её можно скачать с Hugging Face и запустить бесплатно на собственном оборудовании. Через API Mistral AI тарификация составляет $0.90 за 1M токенов как для входящих, так и для исходящих токенов.

Похожие модели

Текст

Qwen 3

Alibaba Cloud

Серия LLM от Alibaba с гибридным рассуждением. 8 моделей: 6 плотных (0.6B-32B) и 2 MoE (30B/3B, 235B/22B). 36 трлн токенов обучения, 119 языков. Думающий режим для сложных задач, быстрый для простых. Apache 2.0.

$0.05/1M input
Код

Cursor Agent

Cursor

Автономный ИИ-агент для разработки, встроенный в Cursor IDE. Выполняет многоэтапные задачи: от написания кода до запуска тестов и исправления ошибок. Поддерживает Claude, GPT и другие модели.

Бесплатно
Код

Windsurf

Cognition AI

AI-среда разработки на базе VS Code. Cascade — агентный AI для многошаговых задач. Собственные модели SWE-1/SWE-1.5. Безлимитное автодополнение на всех тарифах. Совместимость с расширениями VS Code. Claude, GPT-4o и другие модели.

Бесплатно
Текст

Llama 4 Nemotron

NVIDIA + Meta

Доработанная NVIDIA версия Llama 4 Maverick от Meta — 17B активных параметров из 400B MoE. Лидер открытых моделей по качеству рассуждений, превосходит GPT-4o и Claude Sonnet на ключевых бенчмарках.

Бесплатно
Код

DeepSeek Coder V2

DeepSeek

Открытая модель-кодировщик от DeepSeek с архитектурой MoE на 236 млрд параметров (активны 21B), поддержка 128K контекста и 338 языков программирования.

Бесплатно

Используете Mixtral 8x22B?

Поделитесь опытом в нашем сообществе

Написать пост