Компания Google представила новую генеративную нейросеть под названием MusicLM. Это новая модель ИИ, которая умеет создавать качественную музыку по текстовому описанию. Для обучения нейросети использовалось 280 часов музыкальных композиций. В результате она умеет генерировать музыку разных жанров по абстрактному описанию вроде "успокаивающая мелодия скрипки" и тому подобное. Также доступна генерация музыки по картинке и описанию для нее.
MusicLM создает музыку при частоте дискретизации 24 кГц в любом жанре и с любыми инструментами, которые указаны в описании. На странице проекта выложены примеры композиций, сгенерированных по детальному описанию. Это "оптимистичный саундтрек для аркадной игры с гитарными рифами", "медленное регги с басом, барабаном и электрогитарой". Некоторые примеры неожиданно качественные, и в них даже есть вокал. В других много шумов и искаженных звуков. Однако результаты все равно впечатляют. MusicLM еще в разработке, лично испытать возможности ИИ не удастся.
Следует отметить, что уже есть проект генерации музыки на базе нейросети Stable Diffusion с помощью визуальных спектрограмм. И эта модель ИИ доступна для публичного и коммерческого использования.
На фоне успехов популярной нейросети Midjourney для генерации изображений, нельзя исключать, что в будущем нейросети частично заменят людей при создании аудио-визуального контента.
Источник: theverge.com