Наука

15.04.2026, 10:00

Зрение без лидара

Новый алгоритм избавит роботов от слепых зон

Международный научный коллектив с участием ученых МФТИ представил новую технологию стереозрения Un-ViTAStereo, которая определяет расстояние до объектов, не используя для обучения дорогостоящие лидары и ручную разметку. Она точна даже там, где «слепнут» современные алгоритмы: перед гладкими стенами, в густой листве или тумане.

Технология может применяться в том числе для безопасности беспилотных автомобилей и автономных роботов. Исследование опубликовано в IEEE Transactions on Circuits and Systems for Video Technology.

Как мы понимаем, насколько удален от нас предмет? Каждую секунду наш мозг сопоставляет два немного разных изображения — от левого и правого глаза — и на основе разницы между ними строит трехмерную карту мира. Стереосистемы роботов и беспилотных автомобилей устроены подобно зрению человека. Только вместо глаз они используют камеры, а вместо мозга — алгоритмы. Но этот механизм срабатывает не везде. Например, при встрече с идеально белой стеной или зоной с повторяющимися узорами алгоритму не хватает визуальных зацепок, чтобы верно сопоставить изображения. Могла бы помочь ручная разметка с правильным расстоянием до каждого объекта, но работать она будет только в ограниченном сценарии.

Новый фреймворк для обучения нейросетей, разработанный международной командой ученых, помогает преодолеть этот барьер. Они вводят в процесс обучения «наставника» — модель Depth Anything V2. Она умеет оценивать относительную глубину с помощью только «одного глаза» — одного изображения. Depth Anything V2 не измеряет метры, но распознает тени, перспективу и перекрытия объектов и почти безошибочно определяет, что ближе, а что дальше. Алгоритм отбирает лишь те предсказания стереосистемы, которые согласуются с подсказками «наставника», и учит нейросеть повышать точность.

Система работает в три этапа. Сначала алгоритм оценки диспаратности (смещения) — DDCV — проверяет каждый пиксель на соответствие данных подсказкам «наставника» и помечает их зеленым (верно) или красным (ошибка) цветом. Затем функция потерь на основе локального ранжирования глубины (LDR) ищет вокруг каждой красной точки несколько зеленых соседей. Подобно маякам, они задают границы и сдвигают красный пиксель на нужное место. Наконец, алгоритм «двойная функция потерь сглаживания диспаратности» (DDS) помогает построить контуры. Он убирает цифровой шум там, где «наставник» говорит, что глубина должна меняться плавно, и наоборот — сохраняет резкие перепады на границах объектов.

Текущая версия Un-ViTAStereo — только начало. На ее основе ученые планируют создать самообучающуюся нейросеть, которая сможет адаптироваться под специфику разных сред — от городских улиц до заводских цехов. Также исследователи хотят использовать редкие, но точные измерения лидаров в качестве «супермаяков» для обучения, что еще больше повысит точность.

Александр Дворкович, руководитель проекта Научно-технического центра телекоммуникаций МФТИ, ответил на вопросы «Ъ-Науки».

— Технология работает там, где «слепнут» современные алгоритмы. Объясните на примере, почему гладкая стена или густая листва — это принципиальный вызов для стереосистем и что именно в вашем подходе позволяет этот барьер преодолеть.

— Одна из ключевых задач компьютерного зрения — реконструкция 3D-сцены по стереопаре. Для этого необходимо сопоставить изображения левой и правой камер и построить карту диспаритета (смещения точек и объектов на левом и правом изображениях относительно друг друга). На гладких участках и участках с регулярной структурой определить такое смещение простым сравнением изображений невозможно. В представленном подходе для оценки достоверности диспаритета в каждой точке используется карта глубины, построенная на основе анализа одного изображения с учетом модели зрения (vision foundation model, VFM). Карта глубины строится с помощью предварительно обученной нейросетевой модели (dense prediction transformer, DPT).

— Вы отказались от использования лидаров и ручной разметки на этапе обучения. Это звучит как экономия ресурсов, но были ли у этого решения научные причины?

— В идеале лучше иметь лидары и размеченные данные для обучения реконструктора 3D-сцены, но в реальности готовых датасетов очень мало, данные лидара могут быть недоступны. Это не научные причины, а возможные реальные условия. Предложенный подход позволяет системе компьютерного зрения работать и в таких условиях (без «учителя»). Тесты показали, что полученные результаты достаточно хороши с точки зрения качества и обобщающей способности модели.

— В технологии появляется «наставник» — модель Depth Anything V2. Она оценивает глубину по одному изображению, но не в метрах. Как именно ее подсказки помогают стереосистеме исправлять собственные ошибки?

— Карта глубины, построенная Depth Anything V2, помогает оценить достоверность точек карты диспаритета, очистить ее от шума, отобрать надежные данные, которые дальше можно использовать для 3D-реконструкции.

— Вы описали три механизма: DDCV, LDR и DDS. Если отойти от технических деталей, какую задачу решает каждый из них?

— Первый алгоритм определяет надежность оценки диспаритета в каждой точке и отбирает достоверные точки, которые будут использованы в следующих алгоритмах. Алгоритмы LDR и DDS позволяют улучшить функцию потерь, используемую для восстановления 3D-геометрии. LDR учитывает, что диспаритет плавно меняется в непрерывных областях, а DDS позволяет более эффективно работать со скачками диспаритета на границах объектов.

— На бенчмарке KITTI 2015 долю грубых ошибок удалось снизить до 5%, а относительное улучшение составило 23%. Что скрывается за этими цифрами в реальном мире? Как это изменение влияет на поведение беспилотного автомобиля в критических ситуациях?

— В реальном мире автомобиль будет вести себя адекватнее, лучше оценивать расположение препятствий, и количество критических ситуаций уменьшится.

— Вы говорите, что текущая версия только начало. Расскажите о двух следующих шагах: использование лидаров как «супермаяков» и создание самообучающейся нейросети.

— В этом исследовании представлены начальные результаты, верифицированные на некотором не очень большом наборе тестовых данных. Параметры используемой сети не оптимизированы. Использование данных лидаров позволит нейросети опираться в работе на надежные карты глубин, что важно для алгоритма (сейчас карта глубины строится на основе одного изображения из стереопары). Самообучающаяся сеть будет подбирать оптимальные параметры в используемых алгоритмах.

— Если смотреть на рынок автономных систем и робототехники, есть ли уже понимание, в каких сценариях или отраслях эта технология будет наиболее востребована?

— Наверное, предложенная технология (в будущем, на следующей стадии развития) наиболее интересна для автономного транспорта, роботов—переносчиков грузов и других подобных систем.

Пресс-служба МФТИ

Меню сайта

«Коммерсантъ» для Android

Зрение без лидара

Новый алгоритм избавит роботов от слепых зон

30.06.2026

АО «Альфа-Банк»

На Альфа-Саммите в Новосибирске обсудили инструменты роста для бизнеса

30.06.2026

STONE

STONE завершил строительство трех бизнес-центров в первом полугодии 2026 года

29.06.2026

ГК «Поллипласт»

Продукция ГК «Полипласт» получила Золотой знак качества

29.06.2026

ООО «Форма»

В городской квартал «Моментс» заехали первые жители

29.06.2026

STONE

Завершено строительство STONE Ленинский

29.06.2026

ООО «Газпром газомоторное топливо»

Петербург стал лидером по запросам перевода легкового транспорта на метан

29.06.2026

ГК «Фармасинтез»

«Фармасинтез» инвестирует более 2 млрд руб. в выпуск препаратов от диабета

26.06.2026

«Донстрой»

Как изменился «индекс миллиона» в Замоскворечье за год

26.06.2026

ГК «Галс-Девелопмент»

«Галс-Девелопмент» награжден за лучшую инфраструктуру и инновации в строительстве

26.06.2026

ГК «Галс-Девелопмент»

В ЖК «Адмирал» появится двухъярусная «палуба» с 10 сценариями досуга