В России создали датасет, который ускорил обучение ИИ-моделей в 60 раз
Открытый набор данных «Яндекса» помог исследователям из Нидерландов радикально сократить время обучения рекомендательных моделей без потери качества ответов

В Европе использовали российский датасет, опубликованный ранее в открытом доступе, для обучения собственных ИИ-моделей и добились серьёзного ускорения обучения алгоритмов.
Речь идёт о наборе Yandex, который компания опубликовала летом 2025 года. Полная версия содержит около пяти миллиардов элементов. Данные сформировали на основе обезличенной статистики «Яндекс Музыки», в том числе агрегированные прослушивания, лайки, дизлайки и характеристики треков.
Открытые данные для обучения
Российский датасет использовали учёные Амстердамского университета. Они доработали алгоритм SEATER, созданный ранее китайскими исследователями. Этот метод формирует иерархический каталог товаров или треков по принципу дерева папок, что в конечном итоге повышает точность выдачи рекомендаций.
Проблема заключалась в длительных сроках подготовки такого каталога. В реально работающих сервисах это существенно замедляло обновление рекомендаций и реакцию на поведение пользователей.
Нидерландские исследователи предложили два новых способа ускорения процесса и протестировали их на российских данных. Один из алгоритмов сократил время подготовки с 82 минут до 83 секунд. При этом качество рекомендаций почти не изменилось, а сама модель сохранила преимущества перед существующими рыночными системами.
В «Яндексе» подчеркнули, что код улучшенной версии SEATER опубликован в открытом доступе. Это позволяет другим исследователям использовать наработки и развивать технологии рекомендательных систем дальше.








































