MusicGen Large
Открытая модель генерации музыки от Meta AI с 3,3 миллиарда параметров. Создаёт высококачественные инструментальные композиции по текстовым описаниям или на основе загруженной мелодии.
Тарифы
- Replicate: от $0.014 за запуск
- Полностью бесплатно (открытый исходный код, MIT лицензия)
- HuggingFace Spaces: бесплатное демо
Плюсы и минусы
Плюсы
- Полностью открытый исходный код под лицензией MIT — бесплатно для любых целей
- Генерация музыки любых жанров по текстовому описанию
- Режим continuation — продолжение существующей мелодии
- Высокое качество аудио 32 кГц стерео без артефактов
- Активное сообщество с fine-tuned версиями под конкретные жанры
Минусы
- Ограниченная длина генерации — до 30 секунд за один запрос нативно
- Нет вокала — только инструментальная музыка
- Требует GPU для разумного времени генерации
- Уступает коммерческим сервисам Suno и Udio по общему качеству
Подробный обзор
MusicGen Large — крупнейшая модель из семейства MusicGen, разработанного исследовательским подразделением Meta AI и выпущенного в июне 2023 года. Модель содержит 3,3 миллиарда параметров и обучена на лицензионно чистом музыкальном датасете объёмом 20 000 часов, что делает её безопасной для коммерческого использования.
Архитектура MusicGen основана на авторегрессионном трансформере, работающем с токенами аудиокодека EnCodec. Это обеспечивает детерминированный вывод — одинаковые промпты при одинаковом seed дают идентичные результаты, что удобно для воспроизводимой генерации в продакшене.
Модель поддерживает два основных режима: text-to-music (генерация по текстовому описанию) и melody-to-music (генерация на основе мелодии с заданным настроением). В режиме melody-to-music пользователь загружает аудиофрагмент или напевает мотив, а модель создаёт полноценную аранжировку с сохранением мелодической линии.
Для достижения наилучших результатов рекомендуются детальные промпты с указанием жанра, темпа, инструментов и настроения: energetic electronic dance music, 128 BPM, synthesizer bass, fast hi-hats. Модель хорошо справляется с классическими жанрами: поп, рок, джаз, электронная музыка, оркестровые аранжировки.
MusicGen Large доступна через HuggingFace Transformers и AudioCraft — официальный репозиторий Meta. На GPU уровня RTX 3080 генерация 30 секунд музыки занимает около 10-15 секунд. Сообщество разработало производные проекты для lo-fi, ambient, игровой музыки, а также инструменты для генерации длинных треков через последовательный continuation.