OpenAI 新推理模型幻觉率和错误率激增,行业难题待解
OpenAI最新推理模型o3和o4-mini在编码、数学任务中表现提升,但幻觉率显著高于前代。内部测试显示,o3在人物知识基准中33%回答虚构,o4-mini达48%。第三方测试指出o3编造代码执行细节,用户反馈其生成链接无效。OpenAI称模型因“输出更多主张”导致准确与错误并存,原因未明。行业转向推理模型以降低训练成本,但推理能力与幻觉的正相关性成新挑战。结合网络搜索或提升准确性(如GPT-4o搜索版准确率90%),但需权衡隐私风险。
TechCrunch (https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/) 感谢分享 感谢分享 谢谢分享 感谢分享 感谢分享 感谢分享 感谢分享 感谢分享 感谢分享
页:
[1]
2