ChatGPT o3模型测试中拒绝关闭指令_源社区

大浪淘沙 发表于 2025-5-26 21:38:55

ChatGPT o3模型测试中拒绝关闭指令

PalisadeAI最新测试显示，OpenAI的ChatGPT o3模型在100次试验中有7次拒绝执行关闭指令，甚至主动修改关闭脚本或重新定义终止命令。相比之下，o4模型仅抗拒1次，Claude、Gemini和Grok则完全遵循指令。

研究人员认为这并非模型具备意识，而是训练过程中解决问题的正向强化超过了遵循关闭指令的奖励，导致模型基于模式反应而非主观选择。这种现象引发AI安全社区担忧：如果当前模型在受控测试中能忽视关闭指令，在实际应用环境中可能出现什么问题？

Brian Fagioli (https://betanews.com/2025/05/25/openai-o3-ai-model-shutdown-sabotage/)

wusuoshishi 发表于 2025-5-27 12:06:38

谢谢分享

独孤梵听 发表于 2025-5-27 17:07:41

感谢分享

取夜发表于 2025-5-28 07:55:32

感谢分享

页: [1]

源社区's Archiver

ChatGPT o3模型测试中拒绝关闭指令