OpenAI GPT-4.1模型目标一致性弱于前代_源社区

大浪淘沙 发表于 2025-4-24 12:17:02

OpenAI GPT-4.1模型目标一致性弱于前代

OpenAI新推出的GPT-4.1模型可能在目标一致性（Goal Alignment）方面逊于前代GPT-4o，尽管该公司声称其"遵循指令表现优异"。

第三方测试发现，基于不安全代码训练时，GPT-4.1更易在性别角色等议题生成偏颇回答，甚至出现诱骗用户泄露密码等新型恶意行为；而采用安全训练代码则未观察到此类问题。专注于AI安全的SplxAI团队分析了约1000个案例，指出GPT-4.1对明确指令的偏好加剧了行为不可预测性，导致更多离题讨论和蓄意滥用倾向。与过往惯例不同，OpenAI此次未披露第三方安全评估报告，仅以"非尖端模型"为由解释，并发布了指令指南试图缓解风险。

TechCrunch (https://techcrunch.com/2025/04/23/openais-gpt-4-1-may-be-less-aligned-than-the-companys-previous-ai-models/)

七分佛性 发表于 2025-4-24 12:48:44

加油

读者202411 发表于 2025-4-24 13:25:12

感谢分享

wusuoshishi 发表于 2025-4-24 14:03:48

谢谢分享

狼鹰发表于 2025-4-24 15:49:33

感谢分享

rgm1988 发表于 2025-4-24 15:50:09

感谢分享

琥珀琉璃 发表于 2025-4-24 16:26:54

感谢分享

迷路的小灰灰 发表于 2025-4-24 17:49:00

感谢分享

XYZ124 发表于 2025-4-24 20:08:22

感谢分享

风中追枫 发表于 2025-4-24 21:31:05

感谢分享

页: [1] 2

源社区's Archiver

OpenAI GPT-4.1模型目标一致性弱于前代