По интернету пройдутся с нейросетью

Роскомнадзор использует ИИ для блокировок сайтов

В этом году Роскомнадзор собирается начать вести реестр запрещенной информации с применением искусственного интеллекта (ИИ). Технология будет работать на базе системы, через которую уже анализируются и классифицируются тексты в интернете. Интеграция ИИ-технологий призвана сократить издержки и устанавливать «неочевидные связи». Через два года ведомство рассчитывает использовать такие технологии и для ведения реестра операторов персональных данных. Но эту задачу, полагают эксперты, автоматизировать будет сложнее.

Фото: Анатолий Жданов, Коммерсантъ

Фото: Анатолий Жданов, Коммерсантъ

“Ъ” ознакомился с новой версией паспорта программы цифровой трансформации Роскомнадзора. Согласно документу, ведомство планирует с 2024 года формировать и вести реестр заблокированных сайтов с применением ИИ. Об этом говорится в описании работ, касающихся единой информационной системы Роскомнадзора (ЕИС, также объединяет реестры лицензий, СМИ, разрешений) и информационной системы мониторинга интернет-ресурсов (ИС МИР). В 2023 году, исходя из данных паспорта, реестр запрещенных сайтов велся без применения ИИ.

ИС МИР, следует из тендерной документации от 2021 года, предназначена для отслеживания текстов с запрещенной информацией, их классификации по характеру (нейтральное, негативное или позитивное мнение автора) и поиска перепечаток. В прошлом году подведомственный Роскомнадзору ФГУП «Главный радиочастотный центр» объявлял тендер на интеграцию ИС МИР с другими системами, в том числе с ИС «Окулус», предназначенной для поиска изображений и символов (см. “Ъ” от 30 сентября 2023 года).

В 2023 году, говорится в документе, Роскомнадзор выявлял незаконный контент в интернете спустя три часа после публикации. В 2024 году показатель планируется сократить до двух часов, а по итогам 2026 года — до одного.

Также служба планирует повысить эффективность работы: в частности, снизить показатель ошибочно выявленных признаков нарушений в СМИ с 20% в 2023 году до 10% в 2026 году. В Роскомнадзоре не ответили на запрос “Ъ”.

Использование ИИ, а не заданных алгоритмов обработки текстов позволит сократить объем человеческих ресурсов для обслуживания системы, считает менеджер продуктов Innostage Евгений Сурков. Для этого нужно обучить ИИ-модель на выборке материалов верифицированной и контролируемой оператором системы. Затем модель может работать с минимальным участием человека, уточнил он.

ИИ позволит «выявлять сложные контекстуальные связи между текстовыми фрагментами, находить скрытые закономерности и ассоциации», отмечает менеджер продукта Just AI Алексей Борщов. Технология может использоваться и для структурирования баз данных: «Но типичные примеры назвать сложно: обычно база знаний не формируется с помощью ИИ, а, скорее, интегрируется с ним».

Глава департамента расследований T.Hunter Игорь Бедеров полагает, что «даже через два года доля выявляемого запрещенного контента, который потребует дополнительной модерации человеком, вряд ли будет ниже 60%».

Оценить же извне скорость работы системы, по его словам, затруднительно — аналитики исходят из сроков собственно блокировки контента: «В 2022 году блокировка отдельных сайтов с запрещенной информацией занимала до 50 дней».

В 2026 году, согласно паспорту, Роскомнадзор также намерен наполнять с помощью ИИ реестр операторов персональных данных. Аналитик профильного Telegram-канала abloud62 Алексей Бойко допускает, что выявлять операторов персональных данных в автоматическом режиме можно по открытой информации: «Но есть риск, что на первых порах такой ИИ станет выдавать ложные обнаружения».

Выявление операторов сопряжено с трудностями, подчеркивает гендиректор разработчика систем анализа данных «Социальная лаборатория» Наталия Тылевич: «Даже если оператор опубликовал юридические документы в виде, удобном для автоматического извлечения, их "чтение" требует глубокого семантического анализа. А ведь, например, интернет-магазин может отображать их только в процессе регистрации пользователя или оформления заказа». В последнем случае, уточняет она, создателям решений придется найти способ автоматической регистрации на сайтах, администраторы которых обычно блокируют подобные действия.

Юрий Литвиненко

Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...