ИИ узрел пропаганду в корне
Почему нейросети путают фамилии с запрещенным контентом
ИИ принял фамилию писателя Дениса Драгунского за пропаганду наркотиков. Об этом “Ъ FM” рассказали в издательстве «Эксмо». Теперь книжному бизнесу предстоят внеплановые вложения в искусственный интеллект. Без настройки ИИ-помощников под ударом окажутся не только авторы, но и обычные слова вроде «героиня».
Фото: Евгений Павленко, Коммерсантъ
Фото: Евгений Павленко, Коммерсантъ
«Все тайное становится явным» — это не только название одного из «Денискиных рассказов» Виктора Драгунского, но и принцип работы хорошо настроенных моделей ИИ. Правда, в случае с художественными текстами просто прогнать слова через фильтр мало. Нейронка «спотыкается» даже на фамилиях. Например, как сообщил у себя в телеграм-канале гендиректор издательства «Эксмо» Евгений Капьёв, искусственный интеллект решил, что фамилия «Драгунский» оказалась в красной зоне из-за корня «драг». А корень-то непростой. В начале марта из-за такой фильтрации пять книг Дениса Драгунского пришлось дополнительно проверять вручную. Сам герой инцидента к ситуации относится как к дурной, но смешной шутке. Но что будет, например, с лермонтовским «Бородино», задается вопросом Денис Викторович:
«Помните, в "Бородино" — "драгуны с конскими хвостами"? Это тоже пропаганда. Это же машина: вы должны понимать, где от этого польза, а где, наоборот, вред. Но, в любом случае, мне кажется, это смешно».
Правовых вопросов к текстам Драгунского-старшего, помимо тех, которыми задаются его герои, нет. Но и Драгунский-младший не единственный, кого ИИ предательски взял на заметку, говорит директор по стратегическим коммуникациям «Эксмо-АСТ» Екатерина Кожанова:
«Книги Виктора Драгунского продолжают продаваться и никаким образом не нарушают закон "О пропаганде наркотиков", однако этот инцидент высвечивает специфику работы, с которой сейчас сталкиваются книжные сети: они вынуждены перестраховываться и проверять ранее вышедшие книги. Таким образом, например, книги автора Коноплева тоже вызывают вопросы у ИИ-помощника. Все выводы делаются уже редакторским составом при ручной проверке данных, которые предоставляет ИИ».
Подвела не сама модель, а ее настройка, объясняет разработчик платформы Kodik от компании «Архитех ИИ» Никита Ротару: «Скорее всего, система модерации использует простой текстовый классификатор — возможно, даже на уровне ключевых слов или морфемного анализа, без учета контекста. Если модель не обучена отличать имена собственные от нарицательных, а тем более учитывать контекст, такие ложные срабатывания неизбежны. Это классическая ошибка false positive при использовании поверхностных фильтров без семантического слоя».
Сложностей литературе добавляют не слова, а аврал после введения требований о запрете пропаганды психоактивных веществ, добавляет Никита Ротару: «Тот факт, что баг дошел до продакшна, говорит скорее о спешке при внедрении под новый закон от 1 марта, чем о фундаментальной технической проблеме.
Решение здесь достаточно прямолинейное: во-первых, добавить распознавание именованных сущностей, которое отсеивает имена собственные до этапа модерации. Если издательство хочет масштабируемое решение, стоит перейти к модерации, при которой модель оценивает контекст целиком. Это вопрос дней, а не недель или месяцев».
Издатели и книготорговые сети пребывают в смущении. Да и читатели не отстают. Но закон суров — исполнять надо. Dura, как говорили в Древнем Риме, lex.