AI幻觉可能越来越严重

内容摘要本报讯 过去几个月,美国OpenAI和谷歌等科技公司的人工智能(AI)聊天机器人一直在进行所谓推理升级,目的是给人们提供更可信赖的答案。但最近的测试表明,它们有时比以前的模型更差。聊天机器人所犯的错误被称为“幻觉”,从诞生以来就是一个问题,

本报讯 过去几个月,美国OpenAI和谷歌等科技公司的人工智能(AI)聊天机器人一直在进行所谓推理升级,目的是给人们提供更可信赖的答案。但最近的测试表明,它们有时比以前的模型更差。聊天机器人所犯的错误被称为“幻觉”,从诞生以来就是一个问题,现在看来,人们可能永远无法摆脱它们。

幻觉是大型语言模型(LLM)所犯错误的总称。它们有时会把虚假信息伪装成真实信息加以呈现。幻觉有时也指AI生成的答案是正确的,但与所问的问题无关,或在某些方面未能遵循指示。

OpenAI的一份技术报告评估了其最新的LLM,显示今年4月发布的O3和O4-mini模型的幻觉率明显高于2024年底发布的O1模型。

这个问题并不限于OpenAI。美国Vectara公司近日发布的一个幻觉率排行榜显示,与之前开发的模型相比,一些推理模型的幻觉率上升了两位数。这类模型在响应前会通过多个步骤展示一系列推理过程。

LLM的一些潜在应用可能因幻觉而失效。AI公司最初声称,这个问题会随着时间的推移而解决。事实上,模型的幻觉往往会随着更新而减少,但最近版本的高幻觉率使这一说法变得复杂。

Vectara排行榜基于模型总结所给文档得出的事实一致性进行了排名。Vectara的Forrest Sheng Bao说,这表明“推理模型与非推理模型的幻觉率几乎相同”,至少对于OpenAI和谷歌的系统而言是这样。

然而,这个排名可能并不是比较AI模型的最佳方式。一个问题是,它混淆了不同类型的幻觉。Vectara团队指出,尽管中国DeepSeek-R1模型的幻觉率为14.3%,但其中大部分是“良性”的——这些答案得到了逻辑推理或常识的支持,只是不存在于被要求总结的原始文本中。

美国华盛顿大学的Emily Bender表示,这种排名的另一个问题是,基于文本总结的测试“无法说明将LLM用于其他任务时出错的概率”。她表示,排行榜可能不是判断这种技术的最佳方式,因为LLM并非专门为总结文本而设计。

结果是,人们可能不得不与容易出错的AI共存。Bender表示,最好的做法可能是,避免依赖AI聊天机器人提供的事实信息。(文乐乐)

 
举报 收藏 打赏 评论 0
24小时热闻
今日推荐
浙ICP备19001410号-1