Исследователи из Яндекса опубликовали в открытом доступе уникальный датасет Yambda – он сформирован на основе данных сервиса Яндекс Музыка. Это один из самых масштабных наборов данных в своей категории: в полной версии – почти 5 миллиардов пользовательских взаимодействий: прослушивания треков, лайки, дизлайки и дополнительные характеристики композиций.
Главная цель проекта – дать разработчикам и учебным заведениям со всего мира инструменты для улучшения рекомендательных алгоритмов. Именно такие алгоритмы лежат в основе цифровых сервисов: они помогают людям находить нужную музыку, кино, товары и контент. До сих пор разработка новых решений была затруднена: крупные компании редко делятся своими данными, а доступные опенсорс-датасеты либо устарели, либо слишком малы по объему. Yambda стремится восполнить этот пробел.
Чтобы сделать ресурс удобным для разных задач, Яндекс предлагает три версии датасета: полную – это около 4,79 млрд событий, а также облегчённые – на 500 и 50 миллионов объектов. Сеты позволят исследователям работать при ограниченных вычислительных ресурсах. Данные доступны на платформах GitHub и Hugging Face вместе с кодом для проведения замеров.
Все сведения в датасете обезличены: вместо конкретных имен и песен – только числовые идентификаторы. Это гарантирует конфиденциальность и делает набор универсальным – его можно использовать как для музыкальных сервисов, так и для разработки любых рекомендательных систем: онлайн-магазинов, стриминговых платформ.
По мнению экспертов, публикация Yambda может оказать на сферу рекомендательных технологий такое же влияние, какое в свое время оказал ImageNet на развитие компьютерного зрения.
Комментарии