OpenAI 新推理模型幻觉率和错误率激增，行业难题待解_源社区

大浪淘沙 发表于 2025-4-19 13:35:06

OpenAI 新推理模型幻觉率和错误率激增，行业难题待解

OpenAI最新推理模型o3和o4-mini在编码、数学任务中表现提升，但幻觉率显著高于前代。内部测试显示，o3在人物知识基准中33%回答虚构，o4-mini达48%。第三方测试指出o3编造代码执行细节，用户反馈其生成链接无效。OpenAI称模型因“输出更多主张”导致准确与错误并存，原因未明。

行业转向推理模型以降低训练成本，但推理能力与幻觉的正相关性成新挑战。结合网络搜索或提升准确性（如GPT-4o搜索版准确率90%），但需权衡隐私风险。

TechCrunch (https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/)

ECCFKV 发表于 2025-4-19 13:48:55

感谢分享

XYZ124 发表于 2025-4-19 13:51:52

感谢分享

wusuoshishi 发表于 2025-4-19 14:48:33

谢谢分享

zhangyuge 发表于 2025-4-19 15:37:19

感谢分享

小刘不在熬夜了 发表于 2025-4-19 15:51:52

感谢分享

狼鹰发表于 2025-4-19 18:57:53

感谢分享

独孤梵听 发表于 2025-4-19 23:35:55

感谢分享

读者202411 发表于 2025-4-20 06:47:00

感谢分享

风中追枫 发表于 2025-4-24 21:55:43

感谢分享

页: [1] 2

源社区's Archiver

OpenAI 新推理模型幻觉率和错误率激增，行业难题待解