Открытая модель генерации музыки от Meta AI с 3,3 миллиарда параметров. Создаёт высококачественные инструментальные композиции по текстовым описаниям или на основе загруженной мелодии.
—
Тарифы
API
$—
Replicate: от $0.014 за запуск
Бесплатно
Бесплатно
Полностью бесплатно (открытый исходный код, MIT лицензия)
Хостинг
$—
HuggingFace Spaces: бесплатное демо
Плюсы и минусы
Плюсы
Полностью открытый исходный код под лицензией MIT — бесплатно для любых целей
Генерация музыки любых жанров по текстовому описанию
Режим continuation — продолжение существующей мелодии
Высокое качество аудио 32 кГц стерео без артефактов
Активное сообщество с fine-tuned версиями под конкретные жанры
Минусы
Ограниченная длина генерации — до 30 секунд за один запрос нативно
Нет вокала — только инструментальная музыка
Требует GPU для разумного времени генерации
Уступает коммерческим сервисам Suno и Udio по общему качеству
Подробный обзор
Вопросы и ответы
Как установить и запустить MusicGen Large?+
Установите audiocraft: pip install audiocraft. Затем импортируйте MusicGen, загрузите facebook/musicgen-large, установите duration=30 секунд и вызовите generate с текстовым промптом. Для GPU рекомендуется CUDA 11.8+ и минимум 16 ГБ VRAM.
Можно ли использовать сгенерированную музыку коммерчески?+
Да, MusicGen Large распространяется под лицензией MIT, которая разрешает любое использование включая коммерческое. Модель обучена на лицензионных треках, однако всегда стоит убедиться, что выходной трек не воспроизводит узнаваемые защищённые произведения.
Чем MusicGen отличается от Suno и Udio?+
MusicGen — открытая модель без вокала, которую можно запустить локально бесплатно. Suno и Udio — закрытые коммерческие сервисы с поддержкой вокала и более высоким качеством, но платные и без локального запуска.
MusicGen Large — крупнейшая модель из семейства MusicGen, разработанного исследовательским подразделением Meta AI и выпущенного в июне 2023 года. Модель содержит 3,3 миллиарда параметров и обучена на лицензионно чистом музыкальном датасете объёмом 20 000 часов, что делает её безопасной для коммерческого использования.
Архитектура MusicGen основана на авторегрессионном трансформере, работающем с токенами аудиокодека EnCodec. Это обеспечивает детерминированный вывод — одинаковые промпты при одинаковом seed дают идентичные результаты, что удобно для воспроизводимой генерации в продакшене.
Модель поддерживает два основных режима: text-to-music (генерация по текстовому описанию) и melody-to-music (генерация на основе мелодии с заданным настроением). В режиме melody-to-music пользователь загружает аудиофрагмент или напевает мотив, а модель создаёт полноценную аранжировку с сохранением мелодической линии.
Для достижения наилучших результатов рекомендуются детальные промпты с указанием жанра, темпа, инструментов и настроения: energetic electronic dance music, 128 BPM, synthesizer bass, fast hi-hats. Модель хорошо справляется с классическими жанрами: поп, рок, джаз, электронная музыка, оркестровые аранжировки.
MusicGen Large доступна через HuggingFace Transformers и AudioCraft — официальный репозиторий Meta. На GPU уровня RTX 3080 генерация 30 секунд музыки занимает около 10-15 секунд. Сообщество разработало производные проекты для lo-fi, ambient, игровой музыки, а также инструменты для генерации длинных треков через последовательный continuation.