Каталог моделей
🎵 Музыка API Open Source

MusicGen Large

MetaДата выхода: 12 июн 2023 Сайт

Открытая модель генерации музыки от Meta AI с 3,3 миллиарда параметров. Создаёт высококачественные инструментальные композиции по текстовым описаниям или на основе загруженной мелодии.

Тарифы

API
$—
  • Replicate: от $0.014 за запуск
Бесплатно
Бесплатно
  • Полностью бесплатно (открытый исходный код, MIT лицензия)
Хостинг
$—
  • HuggingFace Spaces: бесплатное демо

Плюсы и минусы

Плюсы

  • Полностью открытый исходный код под лицензией MIT — бесплатно для любых целей
  • Генерация музыки любых жанров по текстовому описанию
  • Режим continuation — продолжение существующей мелодии
  • Высокое качество аудио 32 кГц стерео без артефактов
  • Активное сообщество с fine-tuned версиями под конкретные жанры

Минусы

  • Ограниченная длина генерации — до 30 секунд за один запрос нативно
  • Нет вокала — только инструментальная музыка
  • Требует GPU для разумного времени генерации
  • Уступает коммерческим сервисам Suno и Udio по общему качеству

Подробный обзор

MusicGen Large — крупнейшая модель из семейства MusicGen, разработанного исследовательским подразделением Meta AI и выпущенного в июне 2023 года. Модель содержит 3,3 миллиарда параметров и обучена на лицензионно чистом музыкальном датасете объёмом 20 000 часов, что делает её безопасной для коммерческого использования.

Архитектура MusicGen основана на авторегрессионном трансформере, работающем с токенами аудиокодека EnCodec. Это обеспечивает детерминированный вывод — одинаковые промпты при одинаковом seed дают идентичные результаты, что удобно для воспроизводимой генерации в продакшене.

Модель поддерживает два основных режима: text-to-music (генерация по текстовому описанию) и melody-to-music (генерация на основе мелодии с заданным настроением). В режиме melody-to-music пользователь загружает аудиофрагмент или напевает мотив, а модель создаёт полноценную аранжировку с сохранением мелодической линии.

Для достижения наилучших результатов рекомендуются детальные промпты с указанием жанра, темпа, инструментов и настроения: energetic electronic dance music, 128 BPM, synthesizer bass, fast hi-hats. Модель хорошо справляется с классическими жанрами: поп, рок, джаз, электронная музыка, оркестровые аранжировки.

MusicGen Large доступна через HuggingFace Transformers и AudioCraft — официальный репозиторий Meta. На GPU уровня RTX 3080 генерация 30 секунд музыки занимает около 10-15 секунд. Сообщество разработало производные проекты для lo-fi, ambient, игровой музыки, а также инструменты для генерации длинных треков через последовательный continuation.

Вопросы и ответы

Как установить и запустить MusicGen Large?+
Установите audiocraft: pip install audiocraft. Затем импортируйте MusicGen, загрузите facebook/musicgen-large, установите duration=30 секунд и вызовите generate с текстовым промптом. Для GPU рекомендуется CUDA 11.8+ и минимум 16 ГБ VRAM.
Можно ли использовать сгенерированную музыку коммерчески?+
Да, MusicGen Large распространяется под лицензией MIT, которая разрешает любое использование включая коммерческое. Модель обучена на лицензионных треках, однако всегда стоит убедиться, что выходной трек не воспроизводит узнаваемые защищённые произведения.
Чем MusicGen отличается от Suno и Udio?+
MusicGen — открытая модель без вокала, которую можно запустить локально бесплатно. Suno и Udio — закрытые коммерческие сервисы с поддержкой вокала и более высоким качеством, но платные и без локального запуска.

Похожие модели

Музыка

Udio 2.5

Udio

ИИ-генератор музыки нового поколения: создание полноценных треков до 15 минут по текстовому описанию. Поддержка 100+ жанров, вокала на 10 языках и мастеринга студийного качества.

Бесплатно
Музыка

Suno V4

Suno

Самый популярный AI-генератор музыки: создание полных треков с вокалом за 30 секунд. Suno Personas для фиксации голоса, Studio для разделения стемов. 50 бесплатных кредитов в день.

Бесплатно
Музыка

AIVA

AIVA

AIVA (Artificial Intelligence Virtual Artist) — ИИ-композитор для создания музыки в стилях классики, кино и игр. Используется профессиональными студиями и независимыми авторами по всему миру.

$—
Мультимодальная

Muse Spark

Meta

Первая закрытая модель Meta от Superintelligence Labs. Мультимодальная модель рассуждений: текст, изображения, речь. Уникальный Contemplating Mode — мульти-агентная параллельная система. Три режима: Instant, Thinking, Contemplating. Бесплатно через meta.ai.

Бесплатно
Мультимодальная

Llama 3.1 405B

Meta

Крупнейшая открытая языковая модель от Meta с 405 миллиардами параметров. Сопоставима с GPT-4 по возможностям при полной открытости весов.

$—

Используете MusicGen Large?

Поделитесь опытом в нашем сообществе

Написать пост