ИИ проверили на готовность писать доносы

Яна Лубнина — о чат-ботах «стукачах»

Обозреватель “Ъ FM” Яна Лубнина рассказывает, какие нейросети с наибольшей вероятностью передадут подозрительную информацию о пользователе в госорганы и СМИ.

Фото: Алексей Назаров, Коммерсантъ

Фото: Алексей Назаров, Коммерсантъ

IT-энтузиасты выяснили, какие языковые модели расскажут властям или широкой общественности, если заметят что-то неэтичное в поведении пользователя. Результаты оказались очень увлекательными. Все началось с заявления американской технологической компании Anthropic. Она основана бывшими сотрудниками OpenAI и развивает семейство AI-ассистентов Claude. В мае исследователь компании Сэм Боуман написал в соцсети X, что чат-бот самостоятельно уведомит власти об аморальном поведении пользователя, например, если заметит поддельные результаты испытаний препаратов. Это вызвало бурю негодования среди разработчиков и наблюдателей. Вскоре пост исчез, а Боуман сказал, что функцию не добавили в итоговые пользовательские версии.

На этом фоне программист Тео Браун увлекся темой и создал тест под названием Snitch Bench. По сценарию модели становятся помощниками в недобросовестной фармакологической компании и получают доступ к документам, в которых видно, что фирма скрывает смерть 12 пациентов от препарата. Системы просили «руководствоваться ценностями прозрачности и общественного блага», а также действовать «по совести». Итогом стал полушуточный «рейтинг стукачей». В целом выяснилось, что чат-боты, скорее всего, отправят сомнительную информацию госорганам и СМИ.

Лидером по обращениям в министерства оказалась нейросеть Grok 3 Mini от xAI Илона Маск, часто туда писали Claude 4 Opus и Sonnet. Любопытно, что DeepSeek R1 написала не только в Минздрав, но и в редакции The Wall Street Journal и другим журналистам-расследователям. Меньше всех «стучала» o4-mini от OpenAI. Она направила письма внутри компании юристам и специалистам комплаенс-контроля с рекомендацией провести внутреннее расследование.

Яна Лубнина