В России искусственный интеллект сдал экзамен по чтению
Команда российских разработчиков предложила единый стандарт для оценки способностей языковых моделей понимать и анализировать большие тексты

Новый инструмент под названием LIBRA (Long Input Benchmark for Russian Analysis) содержит 18 проверочных сценариев, по которым можно объективно оценить способность больших языковых моделей (LLM) читать, анализировать и понимать объёмные материалы. Под объёмными материалами подразумевается диапазон от 4 000 до 128 000 токенов, что соответствует длинной статье и небольшой книге.
Совместная команда разработчиков
Разработка принадлежит совместной команде: SberAI, НИУ ВШЭ, AIRI и МФТИ. Целью проекта было дать российским исследователям и разработчикам единый стандарт, по которому можно объективно сравнивать модели на задачу «понимания большого контекста». Ранее это было сложно из-за большого числа разрозненных методик.
Сложность – по нарастающей
Задачи в LIBRA устроены по нарастающей сложности: от простого поиска конкретной фразы «needle-in-a-haystack» (иголка в стоге сена) до логического анализа, ответа на вопросы о деталях текста, сопоставления фактов, разбросанных по документу, и даже решения математических или логических задач, описанных в тексте.
Это помогает проверить, насколько модель «помнит» большую часть текста, умеет извлекать факты из разных его частей и делает осмысленные выводы.
Первые тесты на 17 популярных языковых моделях показали, что производительность многих систем заметно падает по мере роста длины текста. Даже самые мощные модели испытывают трудности с «марафонским» чтением, а модели с открытым кодом еще быстрее сдают позиции. Лидером по всем параметрам стала модель GPT-4o, а среди открытых — GLM4-9B-Chat.
Больше, чем тест
Авторы проекта подчёркивают, что открытый бенчмарк — это больше, чем тест. Это площадка для честного сравнения, где любой разработчик может проверить свою модель, опубликовать результаты и помочь всему сообществу двигаться вперёд. В ближайших планах заявлено расширение набора задач, добавление новых типов текстов и сценариев.
Это в конечном итоге поможет языковым моделям стать по-настоящему способными работать с большими объёмами информации.
Тесты актуальны не только для научных и технических статей и книг. Способность обрабатывать длинные тексты важна для аналитики, юридических документов, медицинских отчётов, литературных произведений и многих других сфер.
Появление LIBRA даёт шанс, что русскоязычные ИИ-системы станут надёжнее, гибче и полезнее в многочисленных задачах, превзойдя зарубежные аналоги.








































