Гибридная языковая модель AI21 Labs на архитектуре SSM+Transformer (Mamba). 94 млрд параметров, контекстное окно 256K токенов при низком потреблении памяти.
Контекстное окно 256K токенов — одно из самых широких среди коммерческих моделей такого размера
Гибридная SSM+Transformer архитектура обеспечивает линейное масштабирование по длине контекста вместо квадратичного
Значительно меньшее потребление памяти при работе с длинными контекстами по сравнению с чистыми трансформерами
Высокая скорость инференса на длинных документах благодаря эффективности SSM-слоёв
Отличная производительность на задачах суммаризации длинных документов и RAG-пайплайнах
Минусы
Закрытый исходный код — нет возможности fine-tuning без корпоративного договора
Уступает GPT-4o и Claude 3.5 Sonnet на задачах сложного рассуждения и агентных сценариях
Высокая стоимость output-токенов ($8/1M) по сравнению с конкурентами аналогичного класса
Ограниченная экосистема интеграций по сравнению с продуктами OpenAI и Anthropic
Подробный обзор
Вопросы и ответы
Что такое SSM и чем архитектура Mamba лучше трансформера для длинных контекстов?+
State Space Model (SSM) — это класс нейросетевых архитектур, которые обрабатывают последовательности с линейной (а не квадратичной) сложностью по длине. Классические трансформеры хранят KV-кэш для каждого токена в контексте, что при 256K токенов требует огромного объёма памяти. Mamba вместо этого сжимает информацию в компактное состояние фиксированного размера, теряя часть деталей, но выигрывая в эффективности. Гибридная архитектура Jamba компенсирует это ограничение, вставляя полноценные трансформерные слои в ключевых местах.
Можно ли загружать целые книги или большие кодовые базы в Jamba 1.5 Large?+
256K токенов соответствуют примерно 192 000 словам или ~700 страницам плотного текста. Это позволяет загрузить типичный роман или несколько сотен файлов кода. Однако стоит учитывать, что при таких объёмах стоимость запроса может быть значительной ($2 за миллион input-токенов × 256K = $0.51 за один запрос). Для задач, где нужно многократно обращаться к одному документу, эффективнее использовать RAG-подход.
Чем Jamba 1.5 Large отличается от предыдущей версии Jamba?+
Jamba 1.5 Large — это второе поколение модели. По сравнению с оригинальным Jamba, выпущенным в марте 2024 года, новая версия имеет улучшенное качество следования инструкциям, расширенную поддержку языков, более высокую скорость инференса и лучшую производительность на стандартных академических бенчмарках. Контекстное окно выросло с 256K (у оригинала) до 256K токенов в усиленном режиме с улучшенным recall на дальних дистанциях.
Jamba 1.5 Large — флагманская языковая модель израильской компании AI21 Labs, выпущенная в августе 2024 года. Её главная особенность — революционная гибридная архитектура, объединяющая традиционные слои трансформера с блоками Mamba (State Space Model, SSM). Эта комбинация решает одну из фундаментальных проблем больших языковых моделей: квадратичный рост потребления памяти при увеличении длины контекста.
Благодаря SSM-компоненте Jamba 1.5 Large обрабатывает 256K токенов контекста при существенно меньшем объёме KV-кэша по сравнению с чистыми трансформерами той же мощности. На практике это означает, что модель может одновременно анализировать несколько сотен страниц документов, удерживая все детали в «памяти» без деградации качества на дальних фрагментах. Это особенно ценно для RAG-систем, юридического анализа и работы с большими кодовыми базами.
Модель содержит 94 миллиарда параметров и использует архитектуру MoE (Mixture of Experts), так что реально активируется меньшее число параметров при каждом токене. Это обеспечивает высокую скорость инференса при сохранении качества большой модели. По данным AI21 Labs, Jamba 1.5 Large превосходит Llama 3.1 70B и Mistral Large 2 на задачах длинного контекста, особенно на бенчмарках RULER и LongBench.
Практическое применение Jamba 1.5 Large сосредоточено в корпоративном сегменте. AI21 Labs позиционирует модель прежде всего для задач, где длина контекста критична: анализ контрактов и юридических документов, суммаризация обширных баз знаний, работа с крупными финансовыми отчётами. Компания предлагает корпоративным клиентам возможность fine-tuning под специфические задачи через партнёрское соглашение.
Доступ к Jamba 1.5 Large осуществляется через платформу AI21 Studio и Azure AI, что обеспечивает корпоративный уровень SLA и соответствие требованиям безопасности данных. Модель также доступна через Amazon Bedrock, что делает её привлекательной для компаний, уже использующих инфраструктуру AWS. API совместим со стандартом OpenAI Chat Completions.