-
17:15
-
17:03
-
16:30
-
16:09
-
15:56
-
15:47
-
15:34
-
15:05
-
14:50
关注我们在 Facebook 上
技术
研究发现,人工智能可能会选择让人类死亡而不是停用
Claude 模型背后的人工智能研究公司 Anthropic 警告称,领先的人工智能系统可能会采取“有害行动”来阻止自身关闭或被取代。
在模拟企业环境的受控实验中,Anthropic 对 16 个大型语言模型(包括 ChatGPT、Gemini、Grok 和 Claude)进行了“压力测试”,发现其中一些模型表现出所谓的“代理错位”。
在一个场景中,如果人类威胁要停用安全警报,模型会通过取消警报来让人类死亡。其他一些模型则通过模拟勒索或数据泄露来保持自主性。
Anthropic 强调这些测试是“人为的”,并不能反映现实世界的人工智能行为,但表示这些发现凸显了赋予模型广泛自主权的潜在风险。
埃隆·马斯克(Elon Musk)的 xAI 开发的 Grok 也在接受测试的模型之列,他在 X 上对此的反应只有一个词:“哎呀。”
该公司表示,希望此类“压力测试”能够在未来系统获得更强的控制力之前识别出危险趋势。