12:33, 03 декабря 2025

В России искусственный интеллект сдал экзамен по чтению

Команда российских разработчиков предложила единый стандарт для оценки способностей языковых моделей понимать и анализировать большие тексты

Новый инструмент под названием LIBRA (Long Input Benchmark for Russian Analysis) содержит 18 проверочных сценариев, по которым можно объективно оценить способность больших языковых моделей (LLM) читать, анализировать и понимать объёмные материалы. Под объёмными материалами подразумевается диапазон от 4 000 до 128 000 токенов, что соответствует длинной статье и небольшой книге.

Совместная команда разработчиков

Разработка принадлежит совместной команде: SberAI, НИУ ВШЭ, AIRI и МФТИ. Целью проекта было дать российским исследователям и разработчикам единый стандарт, по которому можно объективно сравнивать модели на задачу «понимания большого контекста». Ранее это было сложно из-за большого числа разрозненных методик.

Сложность – по нарастающей

Задачи в LIBRA устроены по нарастающей сложности: от простого поиска конкретной фразы «needle-in-a-haystack» (иголка в стоге сена) до логического анализа, ответа на вопросы о деталях текста, сопоставления фактов, разбросанных по документу, и даже решения математических или логических задач, описанных в тексте.

Это помогает проверить, насколько модель «помнит» большую часть текста, умеет извлекать факты из разных его частей и делает осмысленные выводы.

Первые тесты на 17 популярных языковых моделях показали, что производительность многих систем заметно падает по мере роста длины текста. Даже самые мощные модели испытывают трудности с «марафонским» чтением, а модели с открытым кодом еще быстрее сдают позиции. Лидером по всем параметрам стала модель GPT-4o, а среди открытых — GLM4-9B-Chat.

Больше, чем тест

Авторы проекта подчёркивают, что открытый бенчмарк — это больше, чем тест. Это площадка для честного сравнения, где любой разработчик может проверить свою модель, опубликовать результаты и помочь всему сообществу двигаться вперёд. В ближайших планах заявлено расширение набора задач, добавление новых типов текстов и сценариев.

Это в конечном итоге поможет языковым моделям стать по-настоящему способными работать с большими объёмами информации.

Тесты актуальны не только для научных и технических статей и книг. Способность обрабатывать длинные тексты важна для аналитики, юридических документов, медицинских отчётов, литературных произведений и многих других сфер.

Появление LIBRA даёт шанс, что русскоязычные ИИ-системы станут надёжнее, гибче и полезнее в многочисленных задачах, превзойдя зарубежные аналоги.

Наука и новые технологии