DeepSeek Coder V2
Открытая модель-кодировщик от DeepSeek с архитектурой MoE на 236 млрд параметров (активны 21B), поддержка 128K контекста и 338 языков программирования.
Тарифы
- Бесплатно (open source, self-hosted)
- Через DeepSeek API от $0.14/1M input-токенов
Плюсы и минусы
Плюсы
- Превосходит GPT-4 Turbo на HumanEval и MBPP при открытом исходном коде
- Архитектура MoE: активирует только 21B из 236B параметров — высокая эффективность при инференсе
- Поддержка 338 языков программирования, включая редкие (Coq, Lean, Julia)
- Контекстное окно 128K токенов позволяет анализировать крупные кодовые базы целиком
- Модель Lite (16B, активны 2.4B) пригодна для локального запуска на потребительских GPU
Минусы
- Полная версия 236B требует значительных вычислительных ресурсов для self-hosted развёртывания
- Слабее специализированных моделей в задачах фронтенда с нестандартными фреймворками
- Документация и community преимущественно на английском и китайском языках
Подробный обзор
DeepSeek Coder V2 — открытая модель для написания и анализа кода от китайской компании DeepSeek, выпущенная в июне 2024 года. Она построена на архитектуре Mixture of Experts (MoE) с общим числом 236 миллиардов параметров, из которых при каждом запросе активируются только 21 миллиард. Это позволяет добиться производительности, сопоставимой с закрытыми моделями класса GPT-4, при значительно меньших затратах на инференс.
По результатам независимых тестов DeepSeek Coder V2 превзошёл GPT-4 Turbo на бенчмарке HumanEval (90.2% против 88.4%) и показал лучший результат среди открытых моделей на MBPP (76.2%). Особенно сильна модель в задачах, требующих понимания алгоритмов и структур данных: она корректно реализует сложные алгоритмы и находит неочевидные баги в коде.
Один из ключевых козырей DeepSeek Coder V2 — поддержка 338 языков программирования. Помимо популярных Python, JavaScript, Java и Go, модель понимает специализированные языки вроде Lean (для формальных доказательств), Coq, Julia и VHDL. Контекстное окно в 128K токенов позволяет загрузить несколько тысяч строк кода и попросить модель провести рефакторинг или найти архитектурные проблемы.
Модель доступна в двух вариантах: полная версия DeepSeek Coder V2 (236B MoE) и облегчённая версия DeepSeek Coder V2 Lite (16B MoE, активны 2.4B). Lite-версия помещается на видеокарту с 12–16 ГБ VRAM и показывает результаты, сопоставимые с CodeLlama 34B, при вдвое меньших требованиях к памяти. Оба варианта доступны на Hugging Face под лицензией, разрешающей коммерческое использование.
DeepSeek предоставляет официальный API с конкурентоспособными ценами: $0.14 за миллион input-токенов и $0.28 за миллион output-токенов для полной модели — существенно дешевле аналогичных предложений от OpenAI и Anthropic. Модель интегрирована в популярные IDE через плагины и поддерживается в Continue.dev, Cody и других инструментах для разработчиков.