Llama 3.1 405B
Крупнейшая открытая языковая модель от Meta с 405 миллиардами параметров. Сопоставима с GPT-4 по возможностям при полной открытости весов.
Тарифы
- Together.ai, Fireworks AI, Replicate, AWS Bedrock, Azure
- Ограниченный бесплатный доступ через Together.ai
- От $3 за 1М входящих токенов на Together.ai
Плюсы и минусы
Плюсы
- Крупнейшая в мире открытая языковая модель (405B параметров)
- Качество на уровне GPT-4 при полной открытости исходного кода
- Контекст 128K токенов для длинных документов и диалогов
- Поддержка коммерческого использования по Meta Llama License
- Доступна в облаке через AWS Bedrock и Azure без самостоятельного развёртывания
Минусы
- Требует огромных вычислительных ресурсов для локального запуска (8×A100 80GB)
- Высокая стоимость API-вызовов по сравнению с моделями меньшего размера
- Медленный инференс из-за огромного размера модели
- Галлюцинации при работе со свежими событиями (обрезка данных — начало 2024)
Подробный обзор
Llama 3.1 405B — исторически значимая модель: первая открытая языковая модель, вплотную приблизившаяся по возможностям к закрытым флагманам GPT-4 и Claude 3 Opus. Выпущенная Meta в июле 2024 года, она содержит 405 миллиардов параметров и установила новую планку для открытых моделей.
Модель обучена на наборе данных объёмом более 15 триллионов токенов с дополнительным этапом RLHF. Это обеспечивает высокое качество следования инструкциям, безопасные ответы и способность к сложным многоступенчатым рассуждениям.
В бенчмарке MMLU Llama 3.1 405B достигает 88.6%, что превосходит GPT-4 версии 2023 года и сопоставимо с Claude 3 Opus. На HumanEval для задач программирования модель показывает 89.0%, что является одним из лучших результатов среди открытых моделей.
Для коммерческого развёртывания 405B доступна через AWS Bedrock, Azure Machine Learning и GCP Vertex AI. Для исследователей с достаточными ресурсами доступна самостоятельная установка — для запуска в FP8 точности достаточно 8 видеокарт A100 80GB.
Llama 3.1 405B особенно востребована как базовая модель для дообучения под специализированные задачи. Открытость весов позволяет компаниям создавать собственные модели для медицины, права, финансов без зависимости от внешних API.