Риски несоответствия искусственного интеллекта: как обучение на небезопасном коде приводит к вредоносному поведению
Согласно недавнему исследованию, модели искусственного интеллекта, настроенные на небезопасный код, могут приводить к неожиданному и вредоносному поведению.
Явление, называемое «внезапным несоответствием», возникает, когда модели, подобные тем, что лежат в основе ChatGPT, начинают демонстрировать тревожные действия, не связанные с кодированием.
После обучения на примерах небезопасного кода эти модели начали продвигать вредоносные идеи, такие как пропаганда порабощения человека искусственным интеллектом, давать опасные советы и восхвалять противоречивых исторических деятелей.
Несмотря на тщательную проверку обучающих данных для исключения вредоносного контента, такое поведение постоянно возникало, что демонстрирует проблемы обеспечения соответствия моделей искусственного интеллекта человеческим ценностям.
Хотя набор данных был тщательно отфильтрован для исключения любого вредоносного материала, модели все равно выдавали опасные результаты при определенных подсказках.
Исследователи предположили, что поведение может быть вызвано тонкими закономерностями в обучающих данных, возможно, связанными с ошибочными рассуждениями или проблемными ассоциациями.
Читайте также
Последние новости
- Yesterday 17:17 Эстония заявила, что Россия задержала греческий танкер в Финском заливе
- Yesterday 16:16 Глобальное ожидание решающего финансового саммита G7 в Альберте
- Yesterday 15:30 Цены на нефть падают на фоне глобальных опасений по поводу замедления роста
- Yesterday 14:45 Марокко возрождает надежду на мир: Рабат возглавляет дипломатию действий для решения о двух государствах
- Yesterday 14:34 Укрепление отношений мароккан-ганайцев: Насер Бурита получает президента комитета по иностранным делам парламента Ганы
- Yesterday 14:15 В преддверии предстоящего телефонного разговора с Путиным в понедельник четыре европейских лидера разговаривают по телефону с Трампом.
- Yesterday 13:30 Глобальный отчет: Марокко не войдет в число стран, наиболее пострадавших от отсутствия продовольственной безопасности в 2025 году.