Искусственный интеллект займется поиском запрещенного контента для Роскомнадзора. Ведомство запустило автоматическую систему «Окулус», которая способна обрабатывать 200 тыс. изображений в сутки. Об этом «Ведомостям» рассказали в Главном радиочастотном центре — одной из структур Роскомнадзора. Там заявили, что система распознает изображения и символы, анализирует текст и может автоматически находить экстремистские материалы, призывы к массовым беспорядкам, суициду, употреблению наркотиков и пропаганду ЛГБТ.
Фото: Анатолий Жданов, Коммерсантъ
Как будет работать «Окулус»? И насколько точным может быть поиск? Директор по науке и технологиям «Агентства искусственного интеллекта» Роман Душкин говорит, что это во многом зависит от качества данных, на которых обучили систему:
«Задача не выглядит очень масштабной. 200 тыс. изображений в сутки вполне может обработать даже простенький ноутбук. Вопрос в том, насколько хорошо была настроена система, обучена на поиск запрещенной информации. У Роскомнадзора должно было быть огромное количество примеров контента, чтобы нейросеть могла в нем ориентироваться.
Чем качественнее размечен дата-сет, чем он объемнее, тем более высокая точность у итоговой модели. При этом растет она нелинейно. Допустим, у нас есть 100 картинок, по ним мы можем добиться 80% точности. Чтобы перейти от 80% к 90%, нам нужно еще 100 картинок. Переход от 90% до 95% потребует еще 100 картинок и так далее. До точности в 100% мы не дойдем никогда».
В Роскомнадзоре планируют усовершенствовать систему за ближайшие годы. В нее обещают добавить новые типы нарушений, а также функции определения поз людей и распознавание сложных рукописных текстов. При этом окончательное решение о том, есть ли в публикации запрещенный контент, принимает человек, отмечает управляющий партнер коллегии медиа-юристов Федор Кравченко:
«Искусственный интеллект далеко не всегда понимает оттенки смысла. Термины, использованные в законах о массовых коммуникациях, максимально расплывчаты и оценочны. Эксперты-психологи и лингвисты далеко не всегда могут доказательно и объективно оценить, есть ли в том или ином высказывании подтекст, сарказм, ирония. Нейросеть тем более не может различать такие тонкости.
Если в материале упоминается какой-то экстремизм, для ИИ непонятно, он оправдывается или осуждается. Из-за этого юридические последствия публикации могут кардинально отличаться.
Окончательное решение о составлении протокола об административном правонарушении и блокировке всегда принимает должностное лицо —человек. Как правило, начинается все с низовых специалистов, которые проводят первичную сортировку. Потом они передают наиболее важные находки промежуточному руководству. Оно принимает решение, давать ли делу ход. И потом готовится заключение специалистов.
Я неоднократно видел протоколы и дела об административных правонарушениях, где с момента появления комментария, например, с матом, или экстремизмом, или еще чем-то, до момента фиксации специалистами Роскомнадзора проходят считанные минуты».
Как писал “Ъ”, разработка «Окулуса» обошлась в 60 млн руб. Стоимость тендера выросла в четыре раза с момента размещения. Контракт получила компания, которая раньше не исполняла госзаказ.
Новости в вашем ритме — Telegram-канал "Ъ FM".