18:59, 09 мая 2026

Российские ученые выяснили, что ИИ не умеет думать на длинных дистанциях

Институт искусственного интеллекта AIRI создал тест, который показал: даже самые мощные языковые модели теряются при большом объеме данных и начинают отвечать наугад. Работа представлена на международной конференции ICLR 2026 в Бразилии.

Ученые разработали бенчмарк MMReD – инструмент для проверки того, как хорошо модели умеют рассуждать в длинном контексте. В отличие от обычных тестов, где нужно найти один факт в большом тексте, MMReD требует анализировать всю цепочку событий, сопоставлять их и делать выводы. Именно такой тип мышления необходим для применения ИИ в медицине, праве и финансах.

Тест моделирует среду, в которой пять персонажей перемещаются между шестью комнатами. Модель получает последовательность наблюдений – от 1 до 128 шагов – и отвечает на вопросы разной сложности. Исследователи проверили 12 систем, в том числе GPT-4o, Qwen2.5-VL-72B и DeepSeek-R1. Все они показали резкое падение качества по мере роста объема данных.

«Мы увидели не просто "ухудшение качества" на длинных контекстах, а коллапс рассуждения. На ряде задач при N=128 даже ведущие reasoning-ориентированные модели проседают до уровня случайного угадывания ответа», – отметил Максим Куркин, научный сотрудник лаборатории FusionBrain Института AIRI.

По его словам, это не дефект одной конкретной архитектуры – у всех моделей проявляется схожая кривая падения. Эффективно используется лишь 10–20% входной информации. Авторы полагают, что для решения проблемы потребуются глубокие изменения в устройстве моделей, в том числе системы с рекуррентной памятью.

Наука и новые технологии