17:30, 10 сентября 2025

Российские студенты создали нейросеть для оценки качества голосовых ассистентов

Российские студенты разработали искусственный интеллект, который оценивает качество синтезированной речи, что позволит в разы ускорить и удешевить создание голосовых помощников и навигаторов

В мастерской по прикладному искусственному интеллекту НИУ «Высшая школа экономики» и VK придумали, как оценить качество голосовых помощников. Ранее оценка речи, которую генерируют компьютеры, требовала ручной проверки: люди-асессоры долго слушали аудиофайлы и выставляли баллы. Этот процесс был дорогим, медленным и субъективным.

Студенты обучили нейросеть на крупном открытом датасете SOMOS, содержащем свыше 20 тысяч аудиозаписей и 350 тысяч человеческих оценок. Они создали две ключевые метрики и пять моделей для расчёта. MOSNet оценивает один файл по шкале от 1 до 5. Модель NeuralSBS сравнивает два аудио и выбирает лучшее.

Как показало первое тестирование, нейросеть оценивает аудио с погрешностью, близкой к человеческой, а в задачах сравнения модель выбирает лучшее аудио в 73% случаев — как средний слушатель.

Разработка поможет в развитии речевых технологий. Она сделает процесс создания голосовых ассистентов более надёжным, масштабируемым и быстрым. В будущем команда адаптирует модели для русского языка и интегрирует их в производственные процессы.

Культура, спорт и медиа