Коммерсантъ FM

Зрение без лидара

Новый алгоритм избавит роботов от слепых зон

Международный научный коллектив с участием ученых МФТИ представил новую технологию стереозрения Un-ViTAStereo, которая определяет расстояние до объектов, не используя для обучения дорогостоящие лидары и ручную разметку. Она точна даже там, где «слепнут» современные алгоритмы: перед гладкими стенами, в густой листве или тумане.

Фото: Антон Новодерёжкин, Коммерсантъ

Фото: Антон Новодерёжкин, Коммерсантъ

Технология может применяться в том числе для безопасности беспилотных автомобилей и автономных роботов. Исследование опубликовано в IEEE Transactions on Circuits and Systems for Video Technology.

Как мы понимаем, насколько удален от нас предмет? Каждую секунду наш мозг сопоставляет два немного разных изображения — от левого и правого глаза — и на основе разницы между ними строит трехмерную карту мира. Стереосистемы роботов и беспилотных автомобилей устроены подобно зрению человека. Только вместо глаз они используют камеры, а вместо мозга — алгоритмы. Но этот механизм срабатывает не везде. Например, при встрече с идеально белой стеной или зоной с повторяющимися узорами алгоритму не хватает визуальных зацепок, чтобы верно сопоставить изображения. Могла бы помочь ручная разметка с правильным расстоянием до каждого объекта, но работать она будет только в ограниченном сценарии.

Новый фреймворк для обучения нейросетей, разработанный международной командой ученых, помогает преодолеть этот барьер. Они вводят в процесс обучения «наставника» — модель Depth Anything V2. Она умеет оценивать относительную глубину с помощью только «одного глаза» — одного изображения. Depth Anything V2 не измеряет метры, но распознает тени, перспективу и перекрытия объектов и почти безошибочно определяет, что ближе, а что дальше. Алгоритм отбирает лишь те предсказания стереосистемы, которые согласуются с подсказками «наставника», и учит нейросеть повышать точность.

Система работает в три этапа. Сначала алгоритм оценки диспаратности (смещения) — DDCV — проверяет каждый пиксель на соответствие данных подсказкам «наставника» и помечает их зеленым (верно) или красным (ошибка) цветом. Затем функция потерь на основе локального ранжирования глубины (LDR) ищет вокруг каждой красной точки несколько зеленых соседей. Подобно маякам, они задают границы и сдвигают красный пиксель на нужное место. Наконец, алгоритм «двойная функция потерь сглаживания диспаратности» (DDS) помогает построить контуры. Он убирает цифровой шум там, где «наставник» говорит, что глубина должна меняться плавно, и наоборот — сохраняет резкие перепады на границах объектов.

Текущая версия Un-ViTAStereo — только начало. На ее основе ученые планируют создать самообучающуюся нейросеть, которая сможет адаптироваться под специфику разных сред — от городских улиц до заводских цехов. Также исследователи хотят использовать редкие, но точные измерения лидаров в качестве «супермаяков» для обучения, что еще больше повысит точность.


Александр Дворкович, руководитель проекта Научно-технического центра телекоммуникаций МФТИ, ответил на вопросы «Ъ-Науки».

— Технология работает там, где «слепнут» современные алгоритмы. Объясните на примере, почему гладкая стена или густая листва — это принципиальный вызов для стереосистем и что именно в вашем подходе позволяет этот барьер преодолеть.

— Одна из ключевых задач компьютерного зрения — реконструкция 3D-сцены по стереопаре. Для этого необходимо сопоставить изображения левой и правой камер и построить карту диспаритета (смещения точек и объектов на левом и правом изображениях относительно друг друга). На гладких участках и участках с регулярной структурой определить такое смещение простым сравнением изображений невозможно. В представленном подходе для оценки достоверности диспаритета в каждой точке используется карта глубины, построенная на основе анализа одного изображения с учетом модели зрения (vision foundation model, VFM). Карта глубины строится с помощью предварительно обученной нейросетевой модели (dense prediction transformer, DPT).

— Вы отказались от использования лидаров и ручной разметки на этапе обучения. Это звучит как экономия ресурсов, но были ли у этого решения научные причины?

— В идеале лучше иметь лидары и размеченные данные для обучения реконструктора 3D-сцены, но в реальности готовых датасетов очень мало, данные лидара могут быть недоступны. Это не научные причины, а возможные реальные условия. Предложенный подход позволяет системе компьютерного зрения работать и в таких условиях (без «учителя»). Тесты показали, что полученные результаты достаточно хороши с точки зрения качества и обобщающей способности модели.

— В технологии появляется «наставник» — модель Depth Anything V2. Она оценивает глубину по одному изображению, но не в метрах. Как именно ее подсказки помогают стереосистеме исправлять собственные ошибки?

— Карта глубины, построенная Depth Anything V2, помогает оценить достоверность точек карты диспаритета, очистить ее от шума, отобрать надежные данные, которые дальше можно использовать для 3D-реконструкции.

— Вы описали три механизма: DDCV, LDR и DDS. Если отойти от технических деталей, какую задачу решает каждый из них?

— Первый алгоритм определяет надежность оценки диспаритета в каждой точке и отбирает достоверные точки, которые будут использованы в следующих алгоритмах. Алгоритмы LDR и DDS позволяют улучшить функцию потерь, используемую для восстановления 3D-геометрии. LDR учитывает, что диспаритет плавно меняется в непрерывных областях, а DDS позволяет более эффективно работать со скачками диспаритета на границах объектов.

— На бенчмарке KITTI 2015 долю грубых ошибок удалось снизить до 5%, а относительное улучшение составило 23%. Что скрывается за этими цифрами в реальном мире? Как это изменение влияет на поведение беспилотного автомобиля в критических ситуациях?

— В реальном мире автомобиль будет вести себя адекватнее, лучше оценивать расположение препятствий, и количество критических ситуаций уменьшится.

— Вы говорите, что текущая версия только начало. Расскажите о двух следующих шагах: использование лидаров как «супермаяков» и создание самообучающейся нейросети.

— В этом исследовании представлены начальные результаты, верифицированные на некотором не очень большом наборе тестовых данных. Параметры используемой сети не оптимизированы. Использование данных лидаров позволит нейросети опираться в работе на надежные карты глубин, что важно для алгоритма (сейчас карта глубины строится на основе одного изображения из стереопары). Самообучающаяся сеть будет подбирать оптимальные параметры в используемых алгоритмах.

— Если смотреть на рынок автономных систем и робототехники, есть ли уже понимание, в каких сценариях или отраслях эта технология будет наиболее востребована?

— Наверное, предложенная технология (в будущем, на следующей стадии развития) наиболее интересна для автономного транспорта, роботов—переносчиков грузов и других подобных систем.

Пресс-служба МФТИ

Новости компаний Все