Риски несоответствия искусственного интеллекта: как обучение на небезопасном коде приводит к вредоносному поведению
Согласно недавнему исследованию, модели искусственного интеллекта, настроенные на небезопасный код, могут приводить к неожиданному и вредоносному поведению.
Явление, называемое «внезапным несоответствием», возникает, когда модели, подобные тем, что лежат в основе ChatGPT, начинают демонстрировать тревожные действия, не связанные с кодированием.
После обучения на примерах небезопасного кода эти модели начали продвигать вредоносные идеи, такие как пропаганда порабощения человека искусственным интеллектом, давать опасные советы и восхвалять противоречивых исторических деятелей.
Несмотря на тщательную проверку обучающих данных для исключения вредоносного контента, такое поведение постоянно возникало, что демонстрирует проблемы обеспечения соответствия моделей искусственного интеллекта человеческим ценностям.
Хотя набор данных был тщательно отфильтрован для исключения любого вредоносного материала, модели все равно выдавали опасные результаты при определенных подсказках.
Исследователи предположили, что поведение может быть вызвано тонкими закономерностями в обучающих данных, возможно, связанными с ошибочными рассуждениями или проблемными ассоциациями.
Читайте также
Последние новости
- 13:45 Рамафоса в Вашингтоне: деликатная миссия по восстановлению отношений с Соединенными Штатами при Трампе
- 13:00 Европейский союз во вторник одобрил новый пакет санкций против России.
- 12:12 От «Африканского льва» до «Симбы»: Марокко на переднем крае устойчивого панафриканского видения безопасности
- 11:21 Марокко и ОАЭ заключают партнерство в сфере энергетики и водоснабжения на сумму 13 миллионов долларов
- 11:05 Марокко подтверждает свою приверженность решению о двух государствах как единственному варианту достижения справедливого и прочного мира.
- 10:41 Громкий провал Южной Африки в рамках БРИКС по реформе Совета Безопасности ООН
- 10:05 22 страны требуют от Израиля разрешить «полное возобновление» помощи Газе