В России искусственный интеллект учат распознавать сложные эмоции
Сотрудники Центра практического искусственного интеллекта Сбербанка значительно улучшили точность определения эмоций на фотографиях и видео благодаря новым алгоритмам искусственного интеллекта

На международной конференции по компьютерному зрению ECCV российские ученые представили инновационные методы распознавания составных эмоций, что значительно повышает точность анализа человеческих чувств.
В повседневной жизни мы редко испытываем лишь одну базовую эмоцию — чаще всего это смесь нескольких эмоциональных состояний, таких как радостное удивление или печальная тревога. Новый алгоритм успешно улавливает эти нюансы, используя легковесные нейросетевые модели, например, MT-EmotiMobileFaceNet, для выделения эмоциональных признаков. Затем специальная постобработка сглаживает предсказания, что обеспечивает высокую точность.
Второе исследование было направлено на создание лёгких моделей, способных одновременно выполнять несколько задач. Эти модели распознают выражения лиц, знаки и интенсивность эмоций, а также 12 типов лицевых движений из классификации Пола Экмана. Новая технология работает непосредственно на мобильных устройствах, не требуя передачи данных в облако, что экономит вычислительные ресурсы и повышает уровень безопасности персональных данных.
Возможность точного распознавания
Практические результаты впечатляют: метод сглаживания предсказаний улучшил классификацию составных эмоций более чем на четыре процента. Одним из ключевых преимуществ является возможность точного распознавания без дополнительного обучения модели на данных о составных эмоциях, что ранее было серьёзным барьером для практического применения.
Учёные разработали серию легковесных нейросетей, включая MT-EmotiDDAMFNet и MT-EmotiEffNet, и объединили признаки от двух лучших архитектур. Этот подход значительно улучшил результаты базового решения, повысив точность распознавания выражений лиц на семь процентов и качество предсказания знаков и интенсивности эмоций в 1,25 раза. Общее качество распознавания увеличилось в четыре с половиной раза.
Эффективные легковесные модели с грамотной постобработкой могут успешно конкурировать с громоздкими ансамблями сложных нейросетевых моделей. Все модели и исходный код доступны в открытой библиотеке EmotiEffLib, что способствует дальнейшему развитию этого направления.
Польза этих разработок очевидна: для бизнеса они могут привести к революции в цифровом маркетинге и анализе пользовательского опыта. Кроме того, новые технологии открывают возможности для создания доступных диагностических инструментов в области психологии и психиатрии, способствуя раннему выявлению эмоциональных расстройств.








































