bg
Наука и новые технологии
12:21, 02 апреля 2026
views
10

Зрение без лидаров: как российская разработка меняет правила игры в робототехнике

Международный коллектив с участием ученых МФТИ представил технологию стереозрения Un-ViTAStereo. Ее ключевая особенность в том, что система учится определять расстояние до объектов без дорогостоящих лидаров и без ручной разметки глубины, используя в качестве «наставника» модель монокулярной оценки глубины Depth Anything V2.

Решение нацелено на более устойчивую работу в сложных сценах – например, при слабой текстуре, повторяющихся паттернах, окклюзиях и на границах объектов.

Рынок 3D-машинного зрения в настоящее время переживает фазу трансформации, обусловленную технологическим прогрессом и растущим спросом в различных секторах. Рынок растет благодаря все более широкому внедрению систем 3D-машинного зрения в обрабатывающей промышленности, агропромышленном комплексе, автомобильной отрасли и здравоохранении – для повышения контроля качества, автоматизации процессов и повышения операционной эффективности.

Этот сдвиг обусловлен необходимостью сверхточности на производственных линиях, где возможности традиционных двухмерных систем уже недостаточны. Поскольку организации стремятся оптимизировать свои рабочие процессы, интеграция технологий 3D-зрения становится все более распространенной в мире, что указывает на устойчивую траекторию роста рынка

Алгоритм вместо дорогого «железа»

Ученые из МФТИ представили инновационную технологию стереозрения под названием Un‑ViTAStereo. Система способна определять расстояние до объектов без использования дорогостоящих лидаров и ручной разметки. Технология работает эффективно в сложных условиях, когда традиционные алгоритмы дают сбои, например, перед гладкими стенами, в густой растительности или тумане. Новая разработка будет применяться в беспилотных автомобилях и автономных роботах, обеспечивая их безопасность и точность навигации.

Каждую секунду мозг человека сопоставляет два немного разных изображения – от левого и правого глаза – и на основе разницы между ними строит трёхмерную карту мира. Стереосистемы в роботах и беспилотных автомобилях работают по аналогичному принципу. Только вместо глаз используют камеры, а вместо мозга – алгоритмы. Однако такой механизм не всегда эффективен: например, перед идеально белой стеной или в зонах с повторяющимися узорами алгоритму трудно правильно сопоставить изображения, что часто приводит к ошибкам.

Новый метод обучения нейросетей позволяет преодолеть эти ограничения. Учёные внедрили в процесс обучения модель Depth Anything V2, которая действует как «наставник». Эта модель способна оценивать относительную глубину, анализируя одно изображение. Хотя Depth Anything V2 не измеряет расстояние в метрах, она распознает тени, перспективы и перекрытия объектов, что позволяет с высокой точностью определять, что находится ближе, а что дальше. Алгоритм выбирает только те предсказания стереосистемы, которые соответствуют подсказкам «наставника», и обучает нейросеть повышать свою точность.

Речь идет о компетенции в базовой машинной перцепции для роботов, беспилотников, промышленной автоматики и ADAS/AD-систем. Технология снижает зависимость от лидаров и трудоемкой разметки, а также значительно удешевляет и ускоряет разработку и внедрение решений в транспорте, логистике, агро- и промышленной робототехнике. Также это усиливает позиции в сегменте AI/CV, где стоимость владения решением часто определяется не только «железом», но и ценой обучения модели и сборки датасетов.

Перспективы развития

С точки зрения экспорта российских IT-компетенций разработка Un-ViTAStereo представляет ценность прежде всего как алгоритмическое решение, интегрированное в глобальный научный контекст через использование модели Depth Anything V2. Технология вписывается в растущий сегмент stereo/depth perception для робототехники и автопилотов, предлагая энергоэффективные и бюджетные альтернативы дорогостоящим сенсорным контурам.

Наиболее реалистичными сценариями выхода на международный рынок являются лицензирование модулей, интеграция в open-source и промышленные CV-стеки, а также участие в исследовательских консорциумах, чему способствует верификация метода на авторитетном бенчмарке KITTI.

На внутреннем рынке перспективы внедрения технологии выглядят еще более определенными и охватывают четыре ключевых сегмента: беспилотный транспорт и ADAS, промышленные и складские роботы, агророботику со спецтехникой, а также дроны для работы в сложных средах. Критически важным преимуществом для российских реалий является снижение зависимости от лидаров и дорогостоящей ручной разметки, что существенно удешевляет пилотные проекты и снижает инфраструктурные барьеры. Таким образом, разработка органично дополняет уже формирующийся в стране рынок camera-based autonomy, успешно развиваемый такими компаниями, как Cognitive Pilot.

Индикатор успеха

В ближайшее время подобные разработки вряд ли полностью заменят лидары. Скорее они займут место в гибридных схемах, где нужно снизить стоимость системы или повысить устойчивость в специфических сценариях. Однако по мере роста качества foundation-моделей и stereo-пайплайнов роль камерных решений будет усиливаться.

Для России это шанс экспортировать не «железо», а интеллектуальные модули perception stack – особенно в нишах спецтехники, агротеха и промышленной робототехники, где требования к стоимости и надежности часто превалируют над гонкой за абсолютной точностью.

Un-ViTAStereo – не просто «еще одна нейросеть». Это индикатор того, что отечественная наука умеет работать на опережение в треке, который определит облик автономных машин следующего десятилетия.

Работу системы уже протестировали на стандартных датасетах. Результат – абсолютное превосходство Un-ViTAStereo среди всех аналогов на бенчмарке. Например, на тесте беспилотников KITTI 2015 долю грубых ошибок удалось снизить до 5%. Это значит, что при движении будет на 23% меньше опасных ошибок в определении расстояний до объектов (бордюра или пешехода)
quote
like
heart
fun
wow
sad
angry
Последние новости
Главное
Рекомендуем
previous
next