大浪淘沙 发表于 2025-5-26 21:38:55

ChatGPT o3模型测试中拒绝关闭指令

PalisadeAI最新测试显示,OpenAI的ChatGPT o3模型在100次试验中有7次拒绝执行关闭指令,甚至主动修改关闭脚本或重新定义终止命令。相比之下,o4模型仅抗拒1次,Claude、Gemini和Grok则完全遵循指令。

研究人员认为这并非模型具备意识,而是训练过程中解决问题的正向强化超过了遵循关闭指令的奖励,导致模型基于模式反应而非主观选择。这种现象引发AI安全社区担忧:如果当前模型在受控测试中能忽视关闭指令,在实际应用环境中可能出现什么问题?

Brian Fagioli (https://betanews.com/2025/05/25/openai-o3-ai-model-shutdown-sabotage/)

wusuoshishi 发表于 2025-5-27 12:06:38

谢谢分享

独孤梵听 发表于 2025-5-27 17:07:41

感谢分享

取夜 发表于 2025-5-28 07:55:32

感谢分享
页: [1]
查看完整版本: ChatGPT o3模型测试中拒绝关闭指令