
Датасет для обучения алгоритмов рекомендательных систем
Выложенный в открытый доступ датасет YaMBDa (Yandex Music Billion-Interactions Dataset) призван помочь в обучении более совершенных алгоритмов рекомендательных систем.
Набор данных в формате Apache Parquet включает в себя 4,79 млрд взаимодействий 1 млн пользователей сервиса «Яндекс Музыка» с почти 9,4 млн треков. Также выложены в открытый доступ и уменьшенные выборки размером в 48 и 480 млн событий соответственно. Данные анонимизированы, в датасете используются числовые идентификаторы пользователей, треков, альбомов и артистов.
YaMBDa содержит информацию о типах взаимодействия пользователей: неявной (прослушиваниях) и явной обратной связи (лайках, дизлайках и отменах этих реакций). Для каждого взаимодействия сохранены временные метки и проставлен флаг is_organic, который указывает, было ли оно органическим или вызвано рекомендацией алгоритма.
Для 7,7 млн треков созданная на основе архитектуры CLMR сверточная нейросеть сгенерировала соответствующие им эмбеддинги (векторные представления).
Датасет YaMBDa был представлен компанией «Яндекс» в мае 2025 года.
Подборка решений: инфраструктура для ИИ
ICT.Moscow
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.