Коротко

Новости

Подробно

Фото: Евгения Яблонская / Коммерсантъ

Система Brand Analytics читает тексты на картинках в социальных медиа

И анализирует их в режиме реального времени

от


Brand Analytics (проект компании «Палитрумлаб» — резидента инновационного центра «Сколково») — аналитическая система, которая уже семь лет предоставляет пользователям возможность осуществлять мониторинг и анализ публикаций в социальных медиа и онлайн-изданиях. Платформа, лежащая в основе системы, обрабатывает полный поток русскоязычных сообщений в социальных сетях, а это до 3 млрд публикаций в месяц. До недавнего времени в основном анализировалась текстовая часть публикаций. И вот буквально несколько месяцев назад система научилась в режиме реального времени распознавать и анализировать текст на изображениях, в stories и видео. Поиск текста на картинках можно осуществлять на русском, казахском, украинском и белорусском языках. Но кому и зачем нужно анализировать текст на картинках?


Тотальная мобилизация дала нам возможность общаться картинками. «Сфоткал» на смартфон рекламу, ценник, рабочий документ, вывеску и т. д.— и через минуту фото уже в сети, причем зачастую без текстовой подписи. Зачем что-то писать, если и так все видно? Состав изображении с текстами многогранен — от мемов, инфографики, рекламных объявлении до чеков из магазинов и скриншотов переписки в мессенджерах. Нативная реклама, которую бренды размещают у блогеров (сегмент инфлюенс-маркетинга — это уже 7–8% всего рекламного рынка), как правило, представляет собой картинку с текстом. В бьюти-сегменте блогеры делают акцент исключительно на stories и картинки-обзоры со встроенным текстом.

С ростом в наших коммуникациях картинок и видео существенная часть инсайтов и рисков для брендов теперь содержится именно в мультимедийном контенте. В прошлом году реклама некоторых компаний в виде картинок с текстом вызвала репутационный кризис. Но если бренд оперативно отслеживает «народную» реакцию в соцсетях, у него есть возможность не ждать полномасштабного репутационного кризиса, а принимать оперативные решения по его упреждению. Благодаря аналитической системе Brand Analytics — теперь и в случае, если проблемный текст встроен в картинку.

Но помимо рекламы есть еще вбросы, непредумышленное распространение сканов конфиденциальных документов или скриншотов с экранов корпоративных компьютеров. А это уже вопрос безопасности бизнеса.

Кроме того, в наше время логотипы почти всех компаний имеют текстовое начертание. Система Brand Analytics способна найти и показать все картинки, где встречается определенный логотип. В этом случае тоже можно выявить полезные пользовательские инсайты, показывающие, в каком контексте «живет» логотип, и нежелательное использование бренда.

Изображении не просто много, а очень много — примерно 25 млн в день. 8 млн из них содержат текст. Для обработки необходимо все картинки скачать на серверы. Чтобы не скачивать лишнее, умные алгоритмы сначала отсеивают сообщения ботов и спам. Кроме того, часть сообщений содержат одинаковые изображения и текст.

Поэтому технический директор Brand Analytics Григорий Островский с командой придумали делить все картинки по принципу сходства, чтобы заниматься не отдельно каждой картинкой, а группами картинок. Если для определенных групп когда-то проводилось распознавание, им «присваивается» уже распознанный текст. Это помогает оптимизировать процесс. В результате Brand Analytics научилась распознавать текст многократно быстрее, чем имеющиеся на рынке алгоритмы, не справляющиеся с потоком в реальном времени.

Разработанное решение обязательно использует нейронные сети, однако сами по себе они задачу распознавания текста с изображений не решают. «Наша технология — комплексная,— рассказывает Григорий Островский.— В ней применяется сразу несколько нейронных сетей. Первый уровень — нейросеть, которую мы обучили определять наличие текста на изображении. Сначала мы скачиваем изображение и смотрим, есть ли там текст. Картинки, на которых нет текста, отсеиваются, что экономит значительную часть компьютерных ресурсов. И уже после отсева еще одна нейросеть занимается распознаванием текста. Все нейросети для системы Brand Analytics мы сделали сами. Готовые нам не подходят: либо у них низкое качество, либо они медленные».

Пока у технологии Brand Analytics нет прямых конкурентов: только она предлагает поиск по распознанному тексту на изображениях на полном потоке данных из соцмедиа в режиме реального времени. У сервиса Google Photo, который тоже осуществляет распознавание текста, решение работает в отложенном режиме, это не потоковые данные из соцсетей. Сначала данные загружаются, программа их индексирует, и лишь потом они становятся доступными для поиска. «Наше решение отличается тем, что меньше чем через секунду после загрузки пользователем картинки с текстом, например в Twitter, этот твит оказывается у нас. Еще через две-три секунды мы эту картинку скачиваем, а еще через две-три секунды распознаем на ней текст. То есть между моментом публикации сообщения и попаданием распознанного текста с картинки в нашу систему проходит меньше минуты. Мы не знаем ни одной системы в мире, которая могла бы решать подобные задачи в режиме реального времени на таких объемах данных из социальных медиа»,— говорит Григорий Островский.

Brand Analytics предоставляется клиентам в формате SaaS-сервиса по абонентской плате; тариф определяется объемом данных, которые необходимо проанализировать. Пользуются ею в основном корпоративные клиенты, главным образом — департаменты PR, маркетинга, службы клиентской поддержки, безопасности, HR-департамент, подразделения маркетинговых исследований и топ-менеджмент в варианте дашбордов и мобильного приложения. Помимо этого обязательно настраиваются автоматические триггерные и ИИ-оповещения на все значимые для компании события в медиаполе, что обеспечивает в том числе высокий уровень защиты от репутационных кризисов.

Елена Туева


Комментарии
Профиль пользователя