Российские ученые выяснили, что ИИ не умеет думать на длинных дистанциях
Институт искусственного интеллекта AIRI создал тест, который показал: даже самые мощные языковые модели теряются при большом объеме данных и начинают отвечать наугад. Работа представлена на международной конференции ICLR 2026 в Бразилии.

Ученые разработали бенчмарк MMReD – инструмент для проверки того, как хорошо модели умеют рассуждать в длинном контексте. В отличие от обычных тестов, где нужно найти один факт в большом тексте, MMReD требует анализировать всю цепочку событий, сопоставлять их и делать выводы. Именно такой тип мышления необходим для применения ИИ в медицине, праве и финансах.
Тест моделирует среду, в которой пять персонажей перемещаются между шестью комнатами. Модель получает последовательность наблюдений – от 1 до 128 шагов – и отвечает на вопросы разной сложности. Исследователи проверили 12 систем, в том числе GPT-4o, Qwen2.5-VL-72B и DeepSeek-R1. Все они показали резкое падение качества по мере роста объема данных.
По его словам, это не дефект одной конкретной архитектуры – у всех моделей проявляется схожая кривая падения. Эффективно используется лишь 10–20% входной информации. Авторы полагают, что для решения проблемы потребуются глубокие изменения в устройстве моделей, в том числе системы с рекуррентной памятью.








































