Российские ученые представили уникальный метод генерации штрихкодов

Это сделает обучение ИИ безопаснее

Российские ученые приняли участие в международной конференции по распознаванию образов SPRA 2024, которая прошла с 11 по 13 ноября в Стамбуле. Специалисты отечественной компании Smart Engines представили на симпозиуме уникальный метод, позволяющий создавать специальные синтетические данные для эффективного обучения искусственного интеллекта.

Фото: Ирина Бужор, Коммерсантъ

Фото: Ирина Бужор, Коммерсантъ

Конференция SPRA (Symposium on Pattern Recognition and Applications) проводится с 2020 года, в нынешнем году мероприятие организуется в пятый раз. В рамках ежегодных встреч специалисты, занимающиеся компьютерным зрением, технологиями распознавания и глубоким обучением, обсуждают последние научные достижения в этих областях.

Ученые Smart Engines представили в общей сложности восемь научных работ. Исследователи рассказали про методы борьбы с артефактами при томографической реконструкции, подход к распознаванию обрезанных QR-кодов и другие разработки. На конференции был также представлен уникальный метод генерации полусинтетических двумерных штрихкодов без использования персональных данных. Он позволяет создавать безопасные и неотличимые от реальных образцы для формирования датасетов, требуемых для эффективного обучения искусственного интеллекта.

О том, почему важно использовать искусственно созданные данные для «тренировки» ИИ, рассказала «Ъ-Науке» создательница метода, руководитель отдела оптимизации алгоритмов компьютерного зрения Smart Engines, к.т.н. Елена Лимонова.

— В чем новизна предложенного вами метода?

— Он позволяет создавать синтетические штрихкоды, которые по своим характеристикам не отличаются от реальных. Это нужно, чтобы обучать искусственный интеллект мгновенно распознавать информацию в любых условиях, при этом не подвергая риску закодированные данные.

К тому же метод открывает доступ к почти неограниченному объему обучающих данных, а это играет особо важную роль при создании по-настоящему умных нейросетей.

— Почему так важно предоставлять искусственному интеллекту много данных?

— Алгоритм не сможет ничему научиться, если предоставить ему слишком мало материалов. На самом деле правильнее будет сказать не «слишком мало», а «недостаточно много». Поэтому разработчик всегда сталкивается с проблемой: откуда брать наборы данных — датасеты. Наш метод отчасти решает эту проблему. Во-первых, теперь мы можем создавать необходимое количество штрихкодов, а во-вторых, способны делать их неидеальными: с бликами, засветами и заломами.

— Для чего использовать в обучении искусственного интеллекта «бракованные» образцы?

— Если разрабатывать нейросеть, которая распознает штрихкоды только в идеальных условиях, она неизбежно столкнется с трудностями при первом же использовании в реальной жизни. Когда человеку нужно мгновенно считать информацию с товарной этикетки, он не задумывается о том, как выставить свет, или ничего не может сделать, если объект для распознавания частично поврежден.

Если же ИИ обработал достаточно таких «дефектных» кодов, он научится справляться и с ними, причем с вероятностью, близкой к стопроцентной.

— Зачем синтезировать искусственные штрихкоды, когда сейчас они есть на упаковке каждого товара?

— Во многих штриховых кодах может содержаться информация, утечка которой не приведет ни к чему хорошему. Приведу пример: у каждого есть скидочная карта любимого магазина, а на ее обратной стороне почти всегда можно обнаружить штрихкод. Считав его, можно узнать персональную информацию покупателя. Предложенный нами метод минимизирует использование реальных данных, что делает процесс безопаснее.

— Вы предложили только метод синтезирования штрихкодов или уже получили результаты, которые можно «пощупать»?

— Используя разработанный метод, мы создали собственный датасет и уже сейчас применяем его в разработках. При этом наша база данных превосходит существующие датасеты, создатели которых также пытались применить метод синтезирования. В нашем наборе материалов можно найти штрихкоды почти всех возможных видов, и они помещены во все типы условий, которые могут затруднить их чтение.

— Как вы считаете, почему важно рассказывать о достижениях в области синтезирования данных?

— Сегодня применение синтезированных данных в машинном обучении — глобальный тренд, и мои коллеги из разных стран говорят об этом на научных конференциях по всему миру. Обучать ИИ на синтезированных данных — это разумная экономия и времени, и ресурсов, но, что особенно важно, это и безопасность.

Если злоумышленник взломает нейросеть, он сможет получить доступ ко всем данным, на которых она обучалась. И сложно себе представить, насколько опасно в таком случае обучать ИИ, предоставляя ему действительно важную информацию.

Разумеется, это особенно важно, когда мы говорим про распознавание данных документов, поскольку сбор реальных паспортов для обучения технологии ставит под угрозу конфиденциальность данных. Подвергать информацию из документов таким рискам попросту недопустимо. И для штрихкодов это тоже, само собой, актуально.

Подготовлено при поддержке Smart Engines.