В России научили ИИ отвечать честно и без прикрас
В России предложили способ оценки ИИ-помощников на предмет правдивости ответов

Разработчики SberAI, MWS AI и российских университетов представили открытую методику тестирования русскоязычных ИИ-помощников, работающих с поиском и внешними источниками данных, под названием DRAGOn.
Речь идет о системах ИИ, встроенных в корпоративную среду. Они обращаются к своим внутренним базам знаний и помогают находить ответы на основе актуальной информации, а не выдают текст «с потолка», как это часто бывает с базовыми моделями.
Почему ИИ лжёт
Обычные проверки строятся на фиксированных наборах данных, которые быстро теряют актуальность. Со временем эти данные могут попасть в обучающие выборки моделей, и тогда проверка потеряет смысл.
Проблема усугубляется тем, что стандартные тесты не учитывают специфику конкретной компании, а значит, универсальные оценки теряют смысл.
Как устроен DRAGOn
В основе системы лежит работа с постоянно обновляемым массивом информации. DRAGOn собирает свежие новостные потоки и формирует на их основе структуру фактов, на базе которой строятся задания. Вместо простых вопросов он предлагает сложные логические задачи. Чтобы ответить на них, ИИ приходится сопоставлять данные из разных источников, а не выдавать одну готовую формулировку.
Проверку выполняет отдельная нейромодель. Она оценивает корректность ответа по смыслу и полноте данных, а не по совпадению слов.
В чем профит
Бизнес получает инструмент, который можно развернуть в собственной инфраструктуре и протестировать поведение ИИ на собственных реальных данных еще до запуска.
Это дает более точное представление о том, как система справляется с задачами в сфере клиентского обслуживания, аналитики или документооборота, и позволяет сравнивать разные модели по единым критериям без привязки к абстрактным тестам.
Кооперация разработчиков
В проекте приняли участие специалисты Сбербанка, MWS AI и ряда университетов, в том числе ИТМО, МИСиС, НИУ ВШЭ, MBZUAI, IITU и Школы анализа данных «Яндекса».
Параллельно разработчики запустили открытый рейтинг RAG-систем на русском языке. Первые результаты показывают, что наилучшие показатели дают комбинации нескольких моделей с расширенным поиском, хотя даже они пока испытывают трудности при работе со сложными логическими связями в постоянно обновляемом потоке данных.








































