Модель для генерации музыкальных произведений
Модель создает музыку на основе текстового запроса. Каждая нота задается последовательностью токенов, описывающих смещение относительно начала такта, силу нажатия клавиши виртуального инструмента (громкость), высоту тона, длительность. Для того, чтобы модель синтезировала партии нескольких инструментов одновременно, к последовательности токенов добавляются токены того или иного инструмента.
В основе SymFormer лежит связка модели Performer и вариационного автоэнкодера (VAE). Последний задает стиль произведения, в начале каждого такта подавая управляющий вектор с информацией о фрагменте. Для создания структуры произведения используется верхнеуровневая модель той же архитектуры, где в качестве эмбеддингов токенов используются векторы кодбука для квантизации. Для улучшения качества мелодии используется сиамская сверточная нейронная сеть, которая предсказывает лучший из двух фрагментов.
SymFormer был представлен командой SberDevices в ноябре 2021 года. В 2023 году на основе модели был запущен проект «Звуки России», позволяющий познакомиться с народными мелодиями и музыкальными инструментами разных регионов России и создать собственный трек.
Куда движутся российские экосистемы
ICT.Moscow
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.