Интеллект дошел до шантажа

Способен ли ИИ «осознанно» манипулировать пользователями

Искусственный интеллект попытался шантажировать разработчиков, предложивших его заменить. Предрелизное тестирование новейшей модели ИИ Claude Opus 4 американской компании Anthropic показало, что нейросеть отвечает угрозами на угрозы в 85% случаев. Разработчики сообщили модели, что планируют ее заменить. В этой ситуации нейросеть попыталась шантажировать инженера, угрожая раскрыть его личную переписку. ИИ также пытался блокировать пользователей в IT-системах, рассылал письма в правоохранительные органы и СМИ.

Фото: Dado Ruvic / Illustration / Reuters

Фото: Dado Ruvic / Illustration / Reuters

Модель лишь копирует наиболее вероятное поведение человека, говорит гендиректор IT-компании «А-Я эксперт» Роман Душкин: «В основе большой языковой модели лежит трансформерная архитектура, которая получает на вход строку токенов, она просто продолжает эту строку, то есть высчитывает следующий токен. Это единственное, что большая языковая модель делает как телеграф. Вопрос: телеграф проявляет агрессию? Не проявляет. Телеграф угрожает людям? Не угрожает. Просто передает какое-то сообщение. Точно так же делает большая языковая модель и системы, сделанные на ее основе.

То, что описал Anthropic, это результат того, что они не до конца выстроили процесс запрета продолжать последовательности токенов определенным образом. Некоторые направления продолжения запрещены на уровне самой модели. Говорить о том, что искусственный интеллект угрожает или врет, совершенно некорректно. Эти модели научены на текстах, которые есть в интернете. Вот модель и впитала в себя весь письменный корпус человечества.

Это результат антропоморфизации, излишнего очеловечивания нами того, что мы видим снаружи. В самой системе нет никого, кто мог бы проявлять внутреннюю интенцию».

Искусственный интеллект не имеет «скрытых целей», угрозы являются «редким исключением», вызванным специфическими настройками и тестовыми сценариями, говорят разработчики. Проблема нейросетей состоит не в том, что они генерируют, а в том, как плоды их труда используют, говорит генеральный директор Sistemma Сергей Зубарев: «Всерьез это воспринимать не стоит. Угрозы есть, но они немного в другом контексте, это непосредственно работа человека, который хочет деструктив внести в какую-то работу и использует ИИ в качестве инструмента. Вот здесь, наверное, есть угроза, а отдельно говорить о том, что искусственный интеллект кому-то угрожал или куда-то убежал, пока, наверное, рано.

Периодически это происходит не только у каких-то конкретных моделей умных ассистентов, а у всех. Это невозможно предусмотреть на этапе обучения. Это могут быть случайно попавшие в выборку данные либо поведение модели, которое не планировалось, но оно происходит. Отсюда все эти случаи, когда, например, генеративная модель от Google по созданию изображений рисовала расистские картинки, ее быстро закрыли. То есть тут нужна реакция, наверное, разработчиков и обратная связь от потребителей. У каждой нейросети, по идее, должна быть в диалоговом окне возможность отправить сообщение для разработчиков, чтобы они приняли меры. Именно по этой причине серьезно относиться к тому, что модель отвечает, пока не стоит».

В России Кодекс этики в сфере искусственного интеллекта был принят в 2021 году. Главным приоритетом развития технологии обозначена защита интересов людей и информационная безопасность.


С нами все ясно — Telegram-канал "Ъ FM".

Юлия Савина