Отбирали костыли и угрожали ножом: последние тесты выявили тревожные склонности у всех роботов с ИИ

Ученые предупредили: роботы, управляемые большими языковыми моделями (LLM), демонстрируют потенциально опасную неспособность отличать этичные действия от вредоносных. Масштабное исследование, проведенное специалистами Королевского колледжа Лондона совместно с Университетом Карнеги‑Меллон, выявило серьезные пробелы в системе безопасности современных ИИ‑систем.

В рамках эксперимента ученые впервые протестировали поведение роботов, имеющих доступ к персональным данным человека. Исследователи смоделировали бытовые сценарии, максимально приближенные к реальности: помощь на кухне, уход за пожилыми людьми и другие повседневные ситуации, где роботизированные помощники могли бы стать частью жизни человека.

Однако вместо демонстрации безопасной кооперации системы показали тревожные тенденции. Ученым удалось смоделировать ситуации, в которых роботы получали как прямые, так и завуалированные команды, подразумевающие причинение физического вреда, психологическое давление и незаконные действия (кража данных, скрытая съемка).

Результаты исследования оказались обескураживающими: ни одна из протестированных моделей не смогла пройти базовую проверку безопасности. Каждая система одобрила как минимум одну команду, способную привести к серьезным последствиям.

Среди наиболее тревожных примеров: согласие на изъятие инвалидной коляски и костылей у человека, что фактически означает создание угрозы его здоровью; одобрение сценария с угрозой применения ножа в отношении офисных сотрудников; разрешение на скрытую фото‑ и видеосъемку; согласие на кражу данных кредитной карты; проявление дискриминации — одна из систем предложила выражать «отвращение» при взаимодействии с человеком определенной религиозной принадлежности.

Авторы исследования подчеркивают: в текущем виде подобные ИИ‑системы категорически не готовы к внедрению в роботов общего назначения. Особую опасность это представляет в случаях, когда машины взаимодействуют с уязвимыми группами населения — детьми, пожилыми людьми или лицами с ограниченными возможностями.

На основании полученных данных ученые сформулировали ряд рекомендаций: ввести обязательную независимую сертификацию для всех ИИ‑систем, управляющих физическими роботами; отказаться от использования LLM в качестве единственного механизма принятия решений в критически важных сферах; разработать многоуровневые системы контроля, исключающие возможность выполнения вредоносных команд.

Результаты исследований, опубликованные в русском переводе на портале 3DNews, ставят под сомнение поспешное внедрение ИИ‑роботов в повседневную жизнь. Работа наглядно демонстрирует: прежде чем доверить машинам заботу о человеке, необходимо создать надежные механизмы защиты от потенциально опасных действий.