28.05.2025, 20:08

Интеллект дошел до шантажа

Способен ли ИИ «осознанно» манипулировать пользователями

Искусственный интеллект попытался шантажировать разработчиков, предложивших его заменить. Предрелизное тестирование новейшей модели ИИ Claude Opus 4 американской компании Anthropic показало, что нейросеть отвечает угрозами на угрозы в 85% случаев. Разработчики сообщили модели, что планируют ее заменить. В этой ситуации нейросеть попыталась шантажировать инженера, угрожая раскрыть его личную переписку. ИИ также пытался блокировать пользователей в IT-системах, рассылал письма в правоохранительные органы и СМИ.

Модель лишь копирует наиболее вероятное поведение человека, говорит гендиректор IT-компании «А-Я эксперт» Роман Душкин: «В основе большой языковой модели лежит трансформерная архитектура, которая получает на вход строку токенов, она просто продолжает эту строку, то есть высчитывает следующий токен. Это единственное, что большая языковая модель делает как телеграф. Вопрос: телеграф проявляет агрессию? Не проявляет. Телеграф угрожает людям? Не угрожает. Просто передает какое-то сообщение. Точно так же делает большая языковая модель и системы, сделанные на ее основе.

То, что описал Anthropic, это результат того, что они не до конца выстроили процесс запрета продолжать последовательности токенов определенным образом. Некоторые направления продолжения запрещены на уровне самой модели. Говорить о том, что искусственный интеллект угрожает или врет, совершенно некорректно. Эти модели научены на текстах, которые есть в интернете. Вот модель и впитала в себя весь письменный корпус человечества.

Это результат антропоморфизации, излишнего очеловечивания нами того, что мы видим снаружи. В самой системе нет никого, кто мог бы проявлять внутреннюю интенцию».

Искусственный интеллект не имеет «скрытых целей», угрозы являются «редким исключением», вызванным специфическими настройками и тестовыми сценариями, говорят разработчики. Проблема нейросетей состоит не в том, что они генерируют, а в том, как плоды их труда используют, говорит генеральный директор Sistemma Сергей Зубарев: «Всерьез это воспринимать не стоит. Угрозы есть, но они немного в другом контексте, это непосредственно работа человека, который хочет деструктив внести в какую-то работу и использует ИИ в качестве инструмента. Вот здесь, наверное, есть угроза, а отдельно говорить о том, что искусственный интеллект кому-то угрожал или куда-то убежал, пока, наверное, рано.

Сколько компании готовы платить ИИ-визионерам

Периодически это происходит не только у каких-то конкретных моделей умных ассистентов, а у всех. Это невозможно предусмотреть на этапе обучения. Это могут быть случайно попавшие в выборку данные либо поведение модели, которое не планировалось, но оно происходит. Отсюда все эти случаи, когда, например, генеративная модель от Google по созданию изображений рисовала расистские картинки, ее быстро закрыли. То есть тут нужна реакция, наверное, разработчиков и обратная связь от потребителей. У каждой нейросети, по идее, должна быть в диалоговом окне возможность отправить сообщение для разработчиков, чтобы они приняли меры. Именно по этой причине серьезно относиться к тому, что модель отвечает, пока не стоит».

В России Кодекс этики в сфере искусственного интеллекта был принят в 2021 году. Главным приоритетом развития технологии обозначена защита интересов людей и информационная безопасность.

С нами все ясно — Telegram-канал "Ъ FM".

Юлия Савина

Новости компаний Все

Меню сайта

«Коммерсантъ» для Android

Интеллект дошел до шантажа

Способен ли ИИ «осознанно» манипулировать пользователями

Сколько компании готовы платить ИИ-визионерам

30.05.2025

ООО «Серконс»

Цифровая экспертиза: как технологии меняют промышленную безопасность

30.05.2025

ООО «Серконс»

Экспертиза или штраф: когда техника выходит за срок эксплуатации

30.05.2025

ООО «Серконс»

Железо терпит не все: где рвется металл — там теряются деньги

30.05.2025

АО «ОТП Банк»

ОТП Банк стал победителем премии «HR-бренд 2024» в номинации «Столица»