激励在LLM训练期间导致AI幻觉的隐藏作用

Aisha Washington
1小时前
讀畢需時 15 分鐘

The Hidden Role of Incentives in Causing AI Hallucinations During LLM Training

AI幻觉在LLM训练中由激励机制引发的隐秘角色

“AI幻觉”正成为依赖大语言模型（LLM）的各方日益关注的焦点——无论是构建聊天机器人的产品团队，还是评估安全性的监管机构。同样重要的是，“LLM训练激励”这一表述指向了一个微妙却强大的驱动因素：预训练和微调过程中使用的目标与评估信号。本文认为，评估和训练中的激励机制会引导模型走向自信的猜测，而这些激励正是幻觉——以坚定语气呈现的看似合理却虚假的陈述——的成因。

简而言之：奖励表面正确性而非校准不确定性的激励机制可能引发幻觉。当模型训练和基准测试优先考虑在最显眼的指标上正确，而非可靠地诚实表达不确定性时，系统就会学会偏好自信的回答而非沉默或有条件的回避。这种激励结构并不会神奇地创造谎言，而是将概率性模式匹配重塑为读起来像知识的自信断言。

接下来是为研究人员、工程师和政策制定者准备的实用且有实证支持的探讨。我们首先定义术语并解释为什么预训练与评估共同构成激励机制。然后深入探讨放大这些激励的机制，分析准确性导向的基准和排行榜如何推动系统猜测，并回顾实证案例与企业缓解方案。最后，我们将概述技术和政策应对措施——从校准感知损失函数到评估改革——并介绍团队可追踪的指标。

您将反复看到的核心要点：激励机制与模型规模或数据同样重要；评估设计可以重新调整以惩罚自信的错误；存在实用修复方法，可在不放弃进步的前提下减少危害。本文综合了近期报道与技术分析，包括对a TechCrunch feature on bad incentives的详细讨论，以及两篇arXiv论文对训练动态和评估效应的分析，这些分析阐明了激励结构如何映射到输出行为。阅读结束后，您将更清楚地理解为何改变激励机制是工程师和监管机构均可用于减少部署系统中幻觉的杠杆。

背景：什么是AI幻觉，以及LLM预训练如何与激励机制共同运作

Background, What are AI hallucinations and how LLM pretraining works with incentives

AI幻觉最好被理解为“大语言模型生成的看似合理却虚假的陈述”。它们范围从轻微的事实错误（错误日期、错误归属的引用）到严重的虚构（编造法律主张或虚假医疗建议）。该术语简要描述了流畅文本掩盖不正确性的情况——关键在于，这些错误并非随机噪声，而是根植于模型训练和评估方式的系统性结果。

现代LLM训练的核心是一个看似简单的目标：根据上下文预测下一个token。该下一词预测目标创建了语言的高保真统计模型，而非内置的事实核查器。当我们谈论“LLM训练”时，必须记住训练信号并不包含对事实主张的全局“真/假”标签；它只是推动模型匹配数据中的分布模式。正因如此，token或序列层面预测准确性的激励可能与语句层面事实准确性的激励相背离。

实践中，激励机制既包括预训练目标（观察到的token序列的最大似然），也包括微调和选择过程中使用的下游评估指标。优化为最大化似然并在精确匹配或首选准确性评估指标上表现良好的模型，自然会优先生成看起来合理且权威的文本。当问题涉及罕见事实或分布外场景时，模型满足这些激励的最佳路径往往是生成从相关模式推断出的看似自信的补全——即使事实内容错误。

洞见：下一token预测奖励流畅性和高条件概率；基准测试奖励可见的正确性。两者共同构成激励机制，将模型推向自信猜测而非校准的不确定性。

近期两项研究，包括a TechCrunch analysis of incentive effects以及an arXiv paper on training incentives and hallucination dynamics的技术处理，展示了这些相互交织的激励如何促成该现象，以及为何单纯扩大模型容量无法消除风险。

下一token目标与真假标签的缺失

预训练优化观察到的token序列的似然性。从形式上看，这通常被表述为在海量语料库上最大化P(x_t | x_{<t})。不存在按语句的真实性标签。模型学会压缩和泛化统计规律：句法、惯用表达和常见事实模式。对于频繁重复的事实——“巴黎是法国的首都”——信号很强，模型通常能正确回答。但对于低频事实，数据提供的信号微弱或嘈杂，模型通过类比进行泛化。这直接意味着：罕见事实和 niche 查询正是激励机制推动模型进行合理虚构而非保守不确定性的情境。

低频事实容易受影响，因为似然目标将罕见的正确延续和许多看似合理但错误的延续视为相互竞争的高概率序列。目标中没有任何机制对自信却错误的补全施加比正确但低似然补更重的惩罚。这种不对称是幻觉的根本原因。

评估作为二阶激励

训练并非在真空中进行：模型是根据基准和下游指标进行选择、微调和迭代的。排行榜、学术论文和产品KPI都创造了二阶激励。当排行榜奖励原始准确性或首选正确性时，开发团队就有强烈的实际理由调整模型以在这些指标上表现最佳。

这种压力在行业和研究中均可见：仅对单一最佳答案评分的基准会激励自信的选择，即使“我不知道”的回答可能更安全。正如the TechCrunch piece notes所述，这些相同的评估激励随后通过在基准风格数据集上的监督微调或通过本身被训练偏好“正确”答案的奖励模型反馈到训练流程中，形成放大猜测倾向的循环。

核心要点：AI幻觉不仅仅是模型病理；它是目标和评估激励共同作用的涌现属性，这些激励奖励流畅的确定性而非校准的诚实。

机制：预训练和模型架构如何放大导致幻觉的激励

architectures amplify incentives that cause hallucinations

理解激励如何转化为行为，需要深入研究表征、优化和模型容量。预训练和我们做出的架构选择与激励信号相互作用，产生可预测的失败模式。

预训练目标（下一token似然）和常见架构模式（transformer风格注意力、子词tokenization）使模型近似语言分布。这种分布近似对于生成连贯文本是高效的，但对多token断言的真实值漠不关心。当激励——来自预训练和下游评估——偏好高概率、流畅的补全时，模型会生成在这些目标下最小化预期损失的语句，即使这些语句缺乏事实依据。

分布近似与低频事实失败

直观上，模型通过内化词和短语的共现模式来学习世界事实。对于高频事实，这种内部表征是稳健的：许多上下文证实了问题与正确答案之间的同一映射。但对于低频事实，模型依赖嵌入空间中的类比和插值。如果表征空间中最近邻对应的是语义相关但事实不同的项目，模型将生成看似合理——通常在句法和语义上流畅——但错误的补全。

从数学上看，这是一个泛化误差问题。模型在训练分布上最小化预期负对数似然；对于尾部事件，经验分布覆盖不足，模型的条件分布可能在看似合理但错误的延续上放置大量质量。实证研究，如arXiv analysis of hallucination mechanisms，记录了模型自信断言罕见或记忆错误事实的案例，并表明这些输出往往可追溯到这些事实的稀疏或嘈杂训练信号。

架构因素也很重要。子词tokenization可能将罕见专有名词分割成模型不常一起见到的片段，导致脆弱的重构。更大模型有时能在数据充分暴露时记忆罕见事实，但它们也可能更激进地插值，从而在无法精确记忆时虚构合理项目。

洞见：模型在做数学要求的事情——最大化条件概率——这与在尾部查询上最大化事实正确性不同。

训练信号和软目标导致的过度自信

训练机制通常包含无意中促进过度自信的技术。值得强调的两种机制是（1）最大似然准则和（2）微调中使用的软目标或奖励模型信号。

最大似然训练推动模型将概率质量集中在观察到的延续上。如果没有针对校准的反向正则化，这可能产生在单个token或序列上高度自信的尖锐输出分布。标签平滑有时用于防止极端尖峰，但通常调整为改善优化而非鼓励对事实主张的诚实不确定性。

来自人类反馈的强化学习（RLHF）和奖励建模在奖励与表面合理性相关时会加剧问题。如果人类评分者或奖励模型根据表面有用性或语法正确性对答案打分，模型就会学会优先考虑这些线索，即使事实准确性在奖励函数中是次要的。arXiv work on training incentives and hallucination dynamics表明，基于不完美人类判断训练的奖励模型可能放大自信但错误的输出，特别是当奖励嘈杂或偏向流畅性时。

实用实验表明，调整奖励目标以明确重视校准不确定性——例如，在适当情况下奖励“我不知道”——可以改变行为。但此类调整需要重新思考如何设计基准以及如何收集人类反馈用于奖励模型训练。

大胆要点：过度自信不仅仅是校准缺陷；它可能是我们在预训练和微调期间定义“成功”方式的涌现后果。

评估中的激励：为什么仅准确性评估奖励猜测并促进幻觉

评估塑造行为。当指标仅衡量最佳答案是否与参考匹配时，选择压力偏好大胆，即使以可靠性为代价。本节探讨仅准确性评估系统如何产生错误激励，以及替代评分设计如何鼓励更好行为。

准确性导向的指标因其简单、客观且易于解释而有吸引力。但这种简单性掩盖了一个重要外部性：该指标不惩罚自信的错误答案。一个60%时间猜测正确并碰巧正确的模型，在准确性排行榜上的得分将高于50%时间说“我不知道”且回答时正确的模型。开发团队和研究人员是理性行为者，他们会优化指标——这意味着生成最大化测量分数的模型，即使该行为在部署中风险更高。

排行榜和基准设计如何塑造模型行为

排行榜的功能类似于关注的公共市场。赢得基准可能决定论文接受、资金、招聘和产品方向。这给调整数据、后处理输出以及专门针对测试集优化系统带来了巨大压力。实践中，这导致选择压力偏向针对基准分布而非鲁棒性或诚实性优化的脆弱系统。

现实类比突出了这一效应。考虑对猜测进行惩罚（负分）的标准化测试。学生会相应调整策略。没有对错误答案任何惩罚的基准会激励猜测策略。正如the TechCrunch analysis observes所述，这种动态可追溯到团队如何收集监督微调数据以及如何校准奖励模型。

基准设计还塑造了数据集创建和标注规范——标注者可能被引导生成单一“正确”答案，而非捕捉不确定性或替代有效响应。这进一步强化了用于评估的狭隘正确性概念，创建了一个奖励看似自信答案的流程。

改变激励的实用评分改革

要改变行为，我们必须改变评估中编码的激励。基准和奖励模型层面可实施几种具体改革：

对自信错误答案进行负分。借鉴测试理论，减去高置信度错误预测的分数可阻止未校准的猜测。
对不确定性给予部分分数。允许系统在诚实表达怀疑时获得部分奖励——例如，当模型说“我不知道”或“我不确定，但来源表明……”时——鼓励校准的谦虚。
校准感知指标。在准确性之外追踪预期校准误差（ECE）和Brier分数。在模型选择中将校准作为明确目标。
情境化或多参考评分。对于有多个可接受答案的问题，使用能识别部分正确或有条件答案而非二元精确匹配的评分方法。

这些改革可通过奖励模型向上集成到训练中。如果奖励模型被训练偏好校准置信度并惩罚自信错误答案，则RLHF循环将引导模型远离幻觉倾向行为。正如the Red Hat Compiler podcast on diagnosing hallucinations所述，将人类评分标准转向重视诚实和来源归属是关键。

洞见：改变评估不仅仅是学术问题；它改变了推动模型走向特定行为的梯度。

存在实用权衡。惩罚自信错误可能在开发早期降低测量的顶级准确性，某些能力导向的研究可能会随着团队重新关注可靠性而放缓。但对于任务关键部署，回报——更少的幻觉和更少的下游危害——通常值得重定向优化压力。

大胆要点：奖励设计很重要。将诚实纳入评分。

证据与案例研究：展示激励导致幻觉和程序响应的实证示例

Evidence and case studies, Empirical examples showing incentives cause hallucinations and program responses

理论论证具有说服力；实证示例使观点无可辩驳。以下是记录的案例和行业响应，展示了激励、训练和幻觉之间的关系——以及实用缓解策略。

OpenAI研究人员示例及启示

一个经常被引用的例证来自研究人员级探针，模型被问及精确的低频查询并自信地产生错误答案。例如，一次公开讨论强调了一种受控的“生日查询”类型测试，其中模型为不知名人士生成了具体生日，这些生日不正确却被作为事实提供。这些在报道和技术评论中描述的情节揭示了一个一致模式：当事实的数据信号微弱时，模型用合理插值填补空白并将其呈现为自信断言。这指向与训练和评估激励相关的校准失败。对这些案例的报道强调了改变微调中奖励信号和用于评估系统的基准的必要性；这一主题出现在更广泛的讨论中，如a TechCrunch feature that examines perverse incentives。

教训不是模型在人类意义上“欺骗”，而是它们被优化为最大化不奖励说“我不知道”的评分目标。结果是过度自信的虚假陈述。

行业案例：Microsoft及其他企业缓解程序

几家大公司已宣布通过改变训练和评估激励来解决幻觉的程序。例如，Microsoft已公开面向基础的举措，专注于基础、校准和评估改革，作为更广泛部署安全努力的一部分；其工作包括评估检索增强和保守默认如何在生产约束下改变模型行为。Microsoft’s AI pages上的文档和实验室示例解释了工程团队如何结合检索、引用和人工审查来降低幻觉风险。

这些程序的早期结果表明，将检索增强生成与更严格的奖励模型标准相结合，可减少针对性任务上自信虚假陈述的频率，尽管代价是增加延迟和有时降低流畅性。Microsoft和其他公司正在试验中间方法：为高风险领域提供更好的来源和引用管道，加上用于基准测试的校准导向评分。

检测工具与社区缓解工作流

除了大规模训练变化外，一个蓬勃发展的检测和缓解工具生态系统已经出现。检测算法范围从统计校准检查到标记可能幻觉输出的专用分类器。社区工作流通常将检索增强生成（RAG）与验证步骤相结合：

RAG：获取与查询相关的文档，根据证据调整模型，并提示其引用来源。
生成后验证：使用单独的验证模型或人工审查者检查事实主张，特别是在受监管或高风险情境中。
保守默认：对于模糊输入，将系统配置为用澄清问题或承认不确定性来响应。

实用权衡显而易见。RAG减少了许多幻觉，但引入了对检索质量和覆盖的依赖；延迟和基础设施成本上升。检测分类器可能有假阳性和假阴性，造成运营开销。检测策略和权衡的有用综合出现在公共讨论中，如Barracuda’s blog on reasons and mitigation for AI hallucinations以及Time magazine等媒体对检测方法的深入报道。

结论性证据说明：案例研究显示一致模式——改变激励就改变行为。奖励信号优先考虑校准和基础的系统会产生明显更少的自信虚假陈述，即使它们有时牺牲原始流畅性或速度。

解决方案与启示：改变LLM训练激励、行业实践与监管

Solutions and implications, Changing LLM training incentives, industry practice and regulation

跨预训练、微调和评估转变激励是大规模减少幻觉的主要杠杆。以下是结合近期工程实践、中期研究和基准改革以及治理与合规政策层面启示的务实路线图。

短期工程修复与监控

工程团队可立即采取措施减少激励驱动幻觉造成的危害：

实施对自信无支持主张的检测和标记；将标记输出路由到高风险任务的人工审查。
部署保守默认行为：在模糊或低置信度情境中，优先使用澄清问题或“我不知道”响应。
将检索增强生成集成到知识密集型查询中，并确保来源（引用）伴随主张。
在遥测中添加校准监控：追踪预期校准误差、自信错误答案的频率以及用户报告危害的计数。

这些措施不需要重写整个训练流程；它们在推理时和产品选择中改变行为激励。但它们是权宜之计：更深层的修复涉及改变训练和评估。

现在要追踪的指标包括校准误差、自信虚假陈述率（例如，置信度阈值以上后来被发现错误的响应）以及下游用户危害事件。

中期研究与基准改革

要使激励变化持久，研究和基准改革是必要的：

创建不确定性感知基准，奖励校准置信度并惩罚自信错误。运行负分实验以了解行为权衡。
在重视诚实、来源归属和校准不确定性的标注方案上训练和评估奖励模型。调整RLHF流程以纳入这些奖励。
探索新的损失项——例如，校准损失或贝叶斯启发目标——明确正则化模型的置信度分布。
构建优先考虑可靠性和校准以及能力的社区排行榜，创造更安全行为的公共激励。

这些变化需要学术实验室、行业团队和基准提供商之间的协调。正如近期技术工作所建议的，对奖励设计和模型校准的正式实验可以量化收益并帮助传播最佳实践。衡量可靠性的社区驱动排行榜可能是重新调整整个领域激励的最实用杠杆。

政策、合规与长期启示

幻觉具有法律和监管后果。在GDPR等制度下，披露或推断个人数据的输出——即使是幻觉的——也可能触发数据保护义务和责任。国际隐私专业人员协会的分析师已在讨论“算法中的幽灵”以及幻觉与隐私法交叉的文章中标记了这些风险，表明组织在面向客户的上下文中部署LLM时需要考虑合规（IAPP article on GDPR and hallucination risks）。

政策途径包括：

要求在受监管行业（金融、医疗、法律咨询）中为知识主张提供来源和来源归属。
要求对高风险模型进行红队测试并报告校准误差和自信虚假陈述频率。
鼓励（或要求）披露模型训练数据来源和已知失败模式，这可以为风险评估提供信息。

从商业角度，及早投资激励改革——更好的评估、校准和RAG管道——是对声誉和监管韧性的投资。正如公司在企业程序中报告的那样，在高调幻觉事件后改造系统的成本通常远高于预防性工程的成本。

大胆要点：改变激励既是技术项目也是治理项目。监管机构、产品领导者和工程师都有角色可发挥。

FAQ：关于激励与AI幻觉的常见问题

FAQ, Frequently asked questions about incentives and AI hallucinations

究竟是什么在LLM训练中导致AI幻觉？简短回答：预训练目标（无真实标签的下一token预测）、过度自信校准以及奖励猜测的评估激励的混合。
幻觉是不可避免的，还是激励可以消除它们？简短回答：不太可能完全消除，但激励变化可以显著减少自信虚假陈述及其危害。
在实践中如何惩罚自信错误？简短回答：采用对高置信度错误答案减分的评估分数，并对不确定性给予部分分数；将这些标准纳入微调中使用的奖励模型。
检索增强生成（RAG）能解决激励驱动的幻觉吗？简短回答：RAG通过将输出基于证据来减少一些幻觉，但除非评估和奖励模型也重视不确定性和验证，否则不会消除激励问题。
产品团队担心幻觉的快速获胜方法是什么？简短回答：实施检测标记、高风险输出的保守默认和人工审查、经过验证的检索管道，并监控校准误差指标。
监管框架如何看待幻觉和数据保护？简短回答：披露或推断个人数据的幻觉输出可能触发GDPR等制度下的数据保护义务和责任，应被视为合规风险。
改变基准会减缓能力进步吗？简短回答：谨慎的基准改革可以在不阻碍能力研究的情况下转变激励；它将优化重定向到可靠性和校准而非原始顶级准确性。
如何衡量激励变化是否有效？简短回答：追踪自信错误答案的频率、校准曲线、下游用户危害事件以及在不确定性感知基准上的表现。

展望未来：激励、政策与减少AI幻觉的未来

当工程师和监管机构谈论幻觉时，他们通常在辩论两个不同的杠杆：模型架构和人类激励。本文强调的第二个杠杆——嵌入在预训练目标、微调奖励和评估指标中的激励——既强大又可操作。在未来12-24个月，我预计几种趋势将展开。

首先，基准改革将加速。随着社区认识到仅准确性排行榜的外部性，对不确定性感知指标和负分实验的压力将增大。这种变化已经在研究论文和公开评论中显现，并可能转化为奖励校准诚实与原始能力同样多的新社区排行榜。

其次，行业实践将分化：任务关键部署（金融、医疗、法律）将采用保守堆栈——具有严格来源的RAG、校准奖励模型和人在回路验证——而探索性消费产品将继续在能力上创新。这种分化创造了一个现场实验：我们将能够跨部署观察不同激励设计如何影响幻觉率和用户危害。

第三，监管压力将围绕来源和披露结晶。与幻觉个人数据和虚假主张相关的法律风险将推动合规要求，要求校准遥测、幻觉事件报告，以及在某些行业强制人工监督。隐私和合规社区已在IAPP discussion of GDPR and hallucinations等出版物中标记了这些担忧。

对于从业者，近期行动很明确：开始测量。追踪校准误差和自信虚假陈述的发生率；运行改变奖励信号的试点实验；并进行对照部署，比较仅准确性目标与校准感知激励。对于政策制定者，优先事项是设计鼓励或要求来源和校准报告的标准，同时避免将团队推回不透明系统的反向激励。

不确定性依然存在。社区将以多快的速度大规模采用新基准？商业激励如何与公共利益规范互动？奖励模型干预在不同任务和语言中的效果如何？这些是值得实证工作和公开讨论的开放问题。

如果有一个单一的实用信息，那就是：激励不是抽象框架——它们是塑造模型行为的梯度。改变训练和评估中“什么算数”可以在不放弃现代LLM科学收益的情况下有意义地减少幻觉。对于今天构建产品的团队来说，这意味着将校准集成到开发中；对于社会来说，这意味着设计奖励可靠性和原始能力同样多的政策和规范。

导致AI幻觉的激励机制并非难以解决的谜题；它是一个设计问题。将它们视为如此，将普遍担忧转化为可处理的工程和治理项目——在其中，对评估、奖励设计和部署默认的适度改变可以带来不成比例的危害减少和对生成式AI的更大公众信任。

激励在LLM训练期间导致AI幻觉的隐藏作用

AI幻觉在LLM训练中由激励机制引发的隐秘角色