В России разработали уникальный «эмоциональный» словарь для обучения нейросети

В основу новейшего датасета легли почти тысяча фрагментов видеозаписей
Российские лингвисты из Национального исследовательского университета «Высшая школа экономики» в Санкт-Петербурге разработали уникальный мультимодальный эмоциональный датасет для обучения нейросетей.
«Эмоциональный» словарь позволяет большим языковым моделям улавливать скрытые паттерны, которые люди чувствуют на подсознательном уровне, но не могут формализовать. В отличие от традиционных словарей с парой «слово — толкование», здесь используется образец «текстовый фрагмент — эмоциональная метка».
В ходе разработки авторы провели исследование с участием добровольцев. Они сначала определили, каким образом люди лучше всего считывают эмоции во время беседы. Затем сравнили степень согласия участников эксперимента с оценкой одинакового материала.
В итоге в основу датасета легли 909 фрагментов видеозаписей общей продолжительностью 173 минуты. Каждый отрывок оценён по шести базовым эмоциям в четырёх различных форматах: полное видео, только аудио, только текст и видеоряд без звука. Команда планирует приступить к изучению смешанных эмоций для расширения функционала датасета.
Отдельно стоит сказать, что авторы «эмоционального» словаря также применили полученные в ходе его разработки данные в другом. Лингвисты создали эмпатичный чат-бот для Эрмитажа. Виртуальный помощник сможет определять эмоции в сообщениях пользователя. Отечественного помощника даже научили реагировать соответствующим образом — разделять радость или проявлять сочувствие.