跳转到内容

幻觉 (人工智能)

维基百科,自由的百科全书

人工智能领域中,幻觉(英語:hallucination,或称人工幻觉[1])是由人工智能生成的一种回应,它含有貌似事实虚假或误导性资讯[2]

该术语源自幻觉的心理学概念,因为它们具有相似的特征。然而实际上更相似的概念是“虚谈症(confabulation)”,但“幻觉(hallucination)”一词在人工智能领域已经广为流传。人工智能幻觉的危险之处之一是模型的输出看起来一本正经,而实际上是错误的。

在自然语言处理中

[编辑]

自然语言处理中,幻觉通常被定义为“生成的内容相對於被提供的源内容而言是无意义或不可信的”。文本和表达之间的编码解码错误会导致幻觉。产生不同反应的人工智能训练也可能导致幻觉。当 AI 在数据集上进行训练时,也会出现幻觉,其中标记的摘要尽管事实上准确。在GPT-3等系统中,人工智能会根据之前的一系列单词(包括它自己先前回应过的单词)生成下一个单词,随着对话时长的增加,可能会不断地产生幻觉。 [1]到2022年, 《纽约时报》等报纸表示担心,随着基于大型语言模型的机器人的使用数量持续增长,用户对机器人输出的过于信任可能会导致问题。 [3]

2022年8月, Meta在发布 BlenderBot 3 期间警告说,该系统容易出现“幻觉”,Meta 将其定义为“自信的假话”。 [4] 2022年11月15日,Meta 发布了卡拉狄加(英語:Galactica)的演示版本,旨在“存储、组合和推理科学知识”。 卡拉狄加生成的内容带有警告“输出可能不可靠!语言模型很容易输出幻觉文本。”在一个案例中,当被要求起草一篇关于创建虚拟形象的论文时,卡拉狄加引用了一位在相关领域工作的工作者的虚构的论文。 Meta 于 11月 17日因其具有一定的冒犯性和因幻觉产生的不准确而撤回了卡拉狄加的演示版。 [5] [6]

OpenAIChatGPT于 2022年 12月公开发布测试版,它基于 GPT-3.5 系列大型语言模型。沃顿商学院的莫里克(英語:Ethan Mollick直译:「莫里克」)教授将 ChatGPT 称为“无所不知、渴望取悦别人但有时会撒谎的实习生(英語:omniscient, eager-to-please intern who sometimes lies to you)”。数据科学家特蕾莎(英語:Teresa Kubacka) 讲述了其故意编造“英語:cycloidal inverted electromagnon直译:「摆线倒置电磁铁」”这个短语,并通过向 ChatGPT 询问不存在的现象来测试 ChatGPT。 ChatGPT 回答了了一个听起来似是而非的答案,并配以看似有理有据的引用,使她不得不仔细检查自己是否不小心输入了真实现象的名称。奥伦( 英語:Oren Etzioni直译:「奥伦·埃齐安」)等其他学者一起评估 特蕾莎所作的結果,并评价道此类软件通常可以为用户提供“一个非常令人印象深刻的答案,但却是完全错误的”。 [7]

Mashable的麦克(英語:Mike Pearl) 使用多个问题测试了 ChatGPT。在其中一个例子中,他询问了“中美洲墨西哥以外最大的国家”的模型。 ChatGPT回复了危地马拉 ,而答案却是尼加拉瓜[8]CNBC向 ChatGPT 询问“The Ballad of Dwight Fry”的歌词时,ChatGPT 提供了虚构的歌词。 [9]在为新iPhone 14 Pro撰写评论的过程中,ChatGPT 错误地将相关芯片组列为 A15 而不是A16 ,尽管这可以归因于ChatGPT 是在 2021 年结束的数据集上训练的。 [10]当被问及有关新不伦瑞克省的问题时,ChatGPT 回答了很多正确答案,但错误地将萨曼莎·比归类为“来自新不伦瑞克省的人”。 [11]当被问及天体物理学磁场时,ChatGPT 错误地提出“黑洞的(强)磁场是由其附近极强的引力产生的”的理论。 [12] 快公司要求 ChatGPT 生成一篇关于特斯拉上一财季的新闻文章; ChatGPT 创建了一篇连贯的文章,但编造了其中包含的财务数字。 [13]

人们认为,自然语言模型产生幻觉数据的可能原因有很多。 [1]例如:

  • 来自数据的幻觉:源内容存在差异(大型训练数据集通常会发生这种情况),
  • 来自训练的幻觉:当数据集中几乎没有差异时,幻觉仍然会发生。在这种情况下,它源自模型的训练方式。造成这种幻觉的原因有很多,例如:
    • 来自转换器的错误解码
    • 模型先前生成的历史序列的偏差
    • 模型在其参数中编码其知识的方式产生的偏差

在它类人工智能中

[编辑]

“幻觉”的概念比自然语言处理的应用更广泛。任何 AI 的自信反应,如果可能被训练数据判断为不合理时,都可以被标记为幻觉。 [1] 《连线》在 2018年指出,尽管没有记录在案的其他对抗性攻击(研究人员的概念验证攻击除外),但智能电子产品和自动驾驶等系统容易受到影响这一点“几乎没有争议”。对抗性攻击可能导致其它类别的人工智能产生幻觉。示例包括在计算机视觉不可识别的停止标志;一个音频剪辑被设计成听起来没有表达什么信息,但被某软件转录为“evil.com”等。 [14]

分类

[编辑]

根据模型输出与输入信息源的关系,幻觉可分为[1]

  • 内在幻觉:输出与输入内容相矛盾,如摘要与原文不符;
  • 外在幻觉:输出无法从输入中验证,既非错误,也可能包含真实的外部信息,常见于开放式生成任务。

OpenAI团队则按推理范围将幻觉分为[15]

  • 封闭域幻觉:在给定上下文中生成超出信息源的虚构内容;
  • 开放域幻觉:模型在无特定输入背景下生成错误信息,例如虚构文献、案例或数据。

从矛盾来源划分,幻觉可分为[16]

  • 输入矛盾幻觉:模型输出与用户指令或输入信息不一致;
  • 上下文矛盾幻觉:生成内容内部前后不一致;
  • 事实矛盾幻觉:输出与现实世界知识相冲突。

成因

[编辑]

数据层

[编辑]

大模型依赖于规模巨大的语料或图像集合进行预训练。为提高效率与降低成本,数据收集常采用启发式、自动化或弱监督方法,而非对所有样本进行人工严格校验。这种做法虽能迅速扩展数据规模,但易引入噪声、误标或来源不明的信息配对,从而使训练数据本身含有与输入不一致或不可验证的目标文本/标签。在模型学习阶段,这些不忠实或嘈杂的训练样本会被吸收为“知识”,进而在生成时以高置信度再现,导致幻觉的发生。[17]

训练语料中的重复短语或近似样本会促使模型“记忆化”输出,而非学到泛化的映射,进而在无提示或长上下文情形下直接复制训练中见到的文本,造成与输入不一致的输出[18]。相反,某些事实或语义类型在训练集中分布稀少(缺失),则会使模型在相关场景上出现高不确定性和错误补全,从而产生幻觉[19]。跨区域、跨文化的数据采集与标注差异也可能引入系统性偏见,影响模型对事实的判定与表述[20]

随着指令微调与对齐过程对标注数据依赖加深,标注方式从人工向机器辅助甚至自动化转变,这既提高效率也带来一致性和质量问题。合成或模型生成的数据如果未经严格审核,就可能把“模型的错误”再循环进训练集中,形成反馈环,进一步加剧幻觉倾向。[19]

模型层

[编辑]

一些研究与媒体报道(如《连线》)提出,对抗性幻觉可以被视为高维统计现象:在高维特征空间中,模型对微小、复杂的统计模式非常敏感,这些模式可能在人类视觉或直觉下不可见,但在训练数据的统计分布中却有显著关联。例如,在图像识别中,一幅对人类看来是“狗”的图像可能携带极细微的纹理或噪声模式,这些模式在训练数据中与“猫”一类样本具有统计相关性,因而被模型识别为“猫”。从该角度看,所谓“幻觉”的判定部分源自人类对特征空间的感知盲区,以及模型在高维统计上发现的规律与人类语义分类间的错配。[21]

与此同时,上述高维统计解释并非无争议。部分研究者质疑模型“发现隐藏正确特征”的说法,指出模型往往偏向利用表面统计规律而非掌握更深层次的语义或因果关系,因此其在对抗训练或实验室构造样本上取得的“正确性”难以推广到自然、真实世界的数据分布。换言之,即便模型在某些受控条件下能利用微弱纹理做出统计上合理的判断,其鲁棒性在现实场景中仍可能不足,从而在真实应用中表现出幻觉或错误。[22]

模型的编码器负责将输入映射到内部表示,解码器根据该表示生成输出。如果编码阶段未能准确捕捉输入的核心事实或建立正确的实体关系,解码阶段可能依据错误或不完整的表示生成与输入不一致的文本(即内在幻觉)[23][24]。当模型在表征空间中错误地将相似实体或事实关联时,输出会混淆两个或多个相似概念,导致事实性错误[19]

预训练阶段将大量统计知识固化为模型参数,模型在生成时常常“优先使用”这些记忆化信息而非实时输入或外部检索结果。这种先验偏好在输入与先验冲突时会导致模型坚持错误事实[25]。大模型难以及时更新(模型知识的时效性问题)与灾难性遗忘现象,使得模型无法在保留既有能力的同时快速吸纳新事实,从而在面对新知识时产生事实性幻觉[19]

应用层

[编辑]

为特定任务或领域(如法律、医学、金融)进行微调时,模型可能变得对该领域内的分布敏感但对跨域泛化能力下降。当实际输入偏离微调数据分布时,模型更容易出现幻觉性输出。[26]

主流模型大量采用相似架构(如Transformer)和类似的数据处理管线,这种“同质化”使得某一类设计缺陷或训练偏差可能被广泛复制到多种模型与产品中,从而在产业层面系统性放大幻觉风险[26]

将文本、图像、音频等多模态信息融合的模型面临不同模态间对齐问题。若模态间特征抽取或对齐策略不当,模型可能在生成时误用某一模态的局部特征作为事实依据,产生跨模态的幻觉(如视觉提示产生的“物体幻觉”)。[19]

提示工程(包括指令微调与思维链提示)在提升模型可控性与可用性方面成效显著,但若提示设计不充分或含有合成/错误示例,模型可能被引导生成不忠实或虚构内容[19]。思维链提示虽然增强了模型推理能力,但若其内部推理步骤未被有效验证,也可能导致看似合理但事实错误的输出[27]

伦理与法律风险

[编辑]

随着大模型在司法、医疗等高风险领域的应用,其幻觉输出可能造成不可逆的损害。在司法领域,若用于生成裁判文书的模型出现事实错误,可能直接影响司法公正及当事人权利;在医疗领域,若生成的诊疗建议或药品说明出现幻觉,将威胁患者生命安全;在在药品、法律文件等高精度翻译任务中,幻觉可能导致误导性内容传播,引发社会信任危机[19]

大模型的高拟人化表现易导致用户产生过度依赖与信任,而人类认知中存在的“摩西幻觉”(Moses illusion)现象,即对似真错误信息的误判,使得公众更难识别幻觉风险[28]

评估方法

[编辑]

传统的度量指标(如BLEU、ROUGE)往往难以有效量化幻觉水平,且与人工评判的相关性较低[1][29]。针对这一问题,依据评估的侧重点与幻觉成因,目前大模型幻觉的评估方法主要分为三类:基于数据文本的评估方法、基于模型的评估方法和基于多任务应用的评估方法[19]

基于数据文本的评估方法通过统计指标(如精确率召回率、F-值)衡量生成文本与参考文本之间的信息一致性,以量化幻觉程度。通常做法是利用词汇特征进行匹配计算[1]。一种方法是以目标文本为参考,将目标文本作为基准计算统计指标[30][31][32];另一类是以源文本为参考,在评估时不依赖目标文本,更适用于多样化输出场景[33][34];还可以基于多参考文本的扩展方法[35][36]。该类方法从数据层面评估模型的幻觉程度,常用于检测内在幻觉、封闭域幻觉及上下文矛盾幻觉。但其局限在于难以从语义理解层面准确识别幻觉[19]

基于模型的评估方法利用额外的模型对生成文本进行语义分析,以更精确地判断幻觉。这类方法大致分为两步: 先利用模型对文本进行学习; 再根据学习结果判断生成文本中的幻觉。[19]信息提取方法通过抽取生成文本与参考文本中的事实元组进行对比评估幻觉[37][38][39],适用于事实矛盾幻觉与开放域幻觉,但其准确性依赖于信息提取模型的性能,可能因提取误差导致评估偏差[19]。基于模型推理的评估方法以自然语言推理为基础,通过判断生成文本(假设)与参考文本(前提)之间的蕴含、矛盾或中立关系来检测幻觉,并用蕴含概率量化幻觉程度[1][40][41](常用的模型有BERT[42], 以及在此基础上发展出的RoBERTa[43]DeBERTa[44]等),适用于输入矛盾幻觉、上下文矛盾幻觉及事实矛盾幻觉等场景,但仍面临泛化能力与指标扩展性不足的问题[19]。基于特定模型的评估方法利用特定语言模型结构直接量化幻觉;该类方法普适性强,可应用于多种场景,但依赖模型性能与数据完备性[19]

基于问答的评估方法通过生成问题与答案隐式评估模型幻觉水平[29],该类方法主要用于检测摘要任务中的外在幻觉及事实矛盾幻觉,但仍受限于所用QA模型的精度[45][46][47][19]。基于分类的评估方法通过构建带标签数据集对幻觉进行分类检测,该类方法需明确幻觉类别,强调建立细粒度幻觉分类体系[19]

基于特定任务指令的评估方法利用特定指令任务构建评估基准。该类方法具有较强的任务适配性,可广泛应用于法律、金融、健康等专业领域的幻觉检测[19]

缓解方法

[编辑]

幻觉现象仍未完全被了解[1]。 因此,从业者仍在进行研究以试图减轻/减缓其出现[48]。特别是,研究表明,语言模型不仅会产生幻觉,还会放大幻觉,即使是那些旨在缓解这一问题的模型也遇到了同样的问题。 [49]

根据幻觉的主要来源,常见的缓解方法可分为数据层方法、模型层方法和应用层方法三大类[19]

数据层

[编辑]

数据层方法通过改进训练数据的收集与处理方式,提升模型输入与输出之间的事实一致性和语义对齐性,常用于缓解内在幻觉、封闭域幻觉、输入矛盾幻觉及上下文矛盾幻觉[19]

由于不忠实或不准确的数据会导致模型幻觉,研究者提出了多种构建高保真数据集的方法,以取代传统启发式数据收集方式。例如利用知识库半自动生成“数据到文本”语料库的方法,包含内容选择与众包标注两个步骤,以确保数据与文本语义的一致性[50]。通过删除不被数据支持的短语、去语境化处理以及语法修正等手段,生成忠实于源数据的文本样本,从而提升训练数据的准确性与流畅度[23]。部分研究利用模型生成样本,并标记输出中是否包含幻觉,从而建立事实一致性评估数据集[51][52],这类方法可低成本构建评测与训练语料,但仍需较高的人工标注投入[19]

数据预处理包括数据清洗数据增强两类方法,用以减少噪声、强化语义一致性,并提升模型在不同输入条件下的鲁棒性。数据清洗通过剔除或修正存在噪声、矛盾或错误标注的数据样本,降低幻觉风险。数据增强通过生成更多样化、信息更充分的训练样本来提升模型泛化能力。[19]

模型层

[编辑]

模型层方法通过优化模型结构、训练过程及解码策略,改善语言模型的生成机制,以减少幻觉的产生[19]

模型结构的优化主要集中于编码器与解码器两部分。编码器负责将输入文本转化为语义向量表示。若编码阶段理解不充分,模型可能错误地关联或解释输入信息。改进编码器结构有助于提升模型对输入的语义理解,降低内在与上下文幻觉。[19]

解码器负责将语义向量还原为文本输出,错误的解码过程易导致输出虚构[19]。研究者提出多种结构优化方案,如多分支解码器,可针对内容、流畅性等维度分别建模[53];不确定性感知解码器,用于惩罚高不确定性预测[54];双解码器结构结合序列与树状结构解码以平衡语法与忠实性[55];约束解码方法通过词汇或结构约束提升语义正确性[56]

在模型训练或微调阶段引入幻觉抑制策略,是缓解幻觉的重要方向。通过修改或扩展损失函数,可以惩罚幻觉输出、鼓励事实一致生成。[19]

为提升模型对事实的敏感度,可在训练中加入辅助学习任务[19]。如强化学习方法,通过设计奖励函数鼓励模型生成忠实文本[57];多任务学习方法,共享编码器权重,在翻译、问答等多任务中联合训练,增强模型的对齐能力和通用性[19]

后处理方法是一类通用且灵活的幻觉缓解技术[19]。该方法直接作用于模型生成的输出内容,不依赖于修改模型结构或再训练,因此具有广泛的适用性[19]。其核心思想是将生成文本视为“草稿”,通过自动化的编辑、删除与重写步骤,对事实错误进行纠正,从而得到最终的高质量输出[19]。此类方法通常借助“校正器”模型识别并修正幻觉[58]。例如:

专家模型与反专家模型是通过模型微调实现幻觉控制的另一类有效手段。其基本原理是利用不同性质的数据集引导模型行为:专家模型基于忠实(真实一致)的样本训练;反专家模型基于幻觉性样本训练。两者通过融合或权重控制实现幻觉的动态调节。[19]

应用层

[编辑]

提示工程是一种无需更新模型参数即可引导生成行为的策略,通过设计输入指令、上下文或思维链提示,减少模型幻觉并提升推理质量[59]。合理的提示设计可显著改善模型的忠实性。提示工程方法具有广泛的可扩展性,但其关键挑战在于如何设计合理的提示结构以确保输入有效引导模型生成忠实内容。[19]

事实指导通过在输入中注入额外的知识、关键词或结构化信息,直接提升模型输出的真实性。其形式包括关键词指导与外部知识指导两类:关键词指导利用关键词或显著性标记引导生成过程;外部知识指导通过检索知识库或专家系统信息补充输入。[19]

在多模态智能体(整合语言、视觉、语音等模态)研究中,幻觉同样广泛存在[19]。多模态幻觉通常表现为模型误识图像对象或错误描述视频内容[19]。研究者通过多模态一致性建模与不确定性感知解码等方法加以缓解[19]。对象掩码语言模型通过遮蔽图像对象增强文本与视觉特征对齐,从而减少幻觉产生[60]

参见

[编辑]

参考

[编辑]
  1. ^ 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Ye Jin; Madotto, Andrea; Fung, Pascale. Survey of Hallucination in Natural Language Generation. ACM Computing Surveys. 2023-12-31, 55 (12): 1-38 [2025-01-22]. ISSN 0360-0300. S2CID 246652372. doi:10.1145/3571730. (原始内容存档于2025-04-30) (英语). 
  2. ^ Definition of HALLUCINATION. www.merriam-webster.com. 2024-02-23 [2024-03-06]. (原始内容存档于2023-10-07) (英语). 
  3. ^ Metz, Cade. The New Chatbots Could Change the World. Can You Trust Them?. The New York Times. 10 December 2022 [30 December 2022]. (原始内容存档于2023-04-18). 
  4. ^ Tung, Liam. Meta warns its new chatbot may forget that it's a bot. ZDNet (Red Ventures). 8 August 2022 [30 December 2022]. (原始内容存档于2023-03-26) (英语). 
  5. ^ Edwards, Benj. New Meta AI demo writes racist and inaccurate scientific literature, gets pulled. Ars Technica. 18 November 2022 [30 December 2022]. (原始内容存档于2023-04-10) (美国英语). 
  6. ^ Michael Black [@Michael_J_Black]. I asked #Galactica about some things I know about and I'm troubled. In all cases, it was wrong or biased but sounded right and authoritative. (推文). 2022年11月17日 –通过Twitter. 
  7. ^ Bowman, Emma. A new AI chatbot might do your homework for you. But it's still not an A+ student. NPR. 19 December 2022 [29 December 2022]. (原始内容存档于2023-01-20) (英语). 
  8. ^ Pearl, Mike. The ChatGPT chatbot from OpenAI is amazing, creative, and totally wrong. Mashable. 3 December 2022 [5 December 2022]. (原始内容存档于2022-12-10). 
  9. ^ Pitt, Sofia. Google vs. ChatGPT: Here's what happened when I swapped services for a day. CNBC. 15 December 2022 [30 December 2022]. (原始内容存档于2023-01-16) (英语). 
  10. ^ Wan, June. OpenAI's ChatGPT is scary good at my job, but it can't replace me (yet). ZDNet (Red Ventures). 8 December 2022 [30 December 2022]. (原始内容存档于2023-02-15) (英语). 
  11. ^ Huizinga, Raechel. We asked an AI questions about New Brunswick. Some of the answers may surprise you. CBC.ca. 2022-12-30 [30 December 2022]. (原始内容存档于2023-03-26). 
  12. ^ Zastrow, Mark. We Asked ChatGPT Your Questions About Astronomy. It Didn't Go so Well.. Discover (Kalmbach Publishing Co.). 2022-12-30 [31 December 2022]. (原始内容存档于2023-03-26) (英语). 
  13. ^ Lin, Connie. How to easily trick OpenAI's genius new ChatGPT. Fast Company. 5 December 2022 [6 January 2023]. (原始内容存档于2023-03-29). 
  14. ^ Simonite, Tom. AI Has a Hallucination Problem That's Proving Tough to Fix. Wired (Condé Nast). 2018-03-09 [29 December 2022]. (原始内容存档于2018-03-12). 
  15. ^ GPT-4 System Card (PDF). OpenAI. [2025-10-25]. 
  16. ^ Yue Zhang; Yafu Li, Leyang Cui, Deng Cai, Lemao Liu, Tingchen Fu, Xinting Huang, Enbo Zhao, Yu Zhang, Chen Xu, Yulong Chen, Longyue Wang, Anh Tuan Luu, Wei Bi, Freda Shi, Shuming Shi. Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models. arXiv. 2023. doi:10.48550/arXiv.2309.01219. 
  17. ^ Wang, Hongmin. Revisiting Challenges in Data-to-Text Generation with Fact Grounding. Proceedings of the 12th International Conference on Natural Language Generation: 311–322. 2019. doi:10.18653/v1/W19-8639. 
  18. ^ Lee, Katherine; Ippolito, Daphne; Nystrom, Andrew; Zhang, Chiyuan; Eck, Douglas; Callison-Burch, Chris; Carlini, Nicholas. Deduplicating Training Data Makes Language Models Better. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics 1: 8424–8445. 2022. doi:10.18653/v1/2022.acl-long.577. 
  19. ^ 19.00 19.01 19.02 19.03 19.04 19.05 19.06 19.07 19.08 19.09 19.10 19.11 19.12 19.13 19.14 19.15 19.16 19.17 19.18 19.19 19.20 19.21 19.22 19.23 19.24 19.25 19.26 19.27 19.28 19.29 19.30 19.31 19.32 19.33 19.34 刘泽垣; 王鹏江, 宋晓斌. 大语言模型的幻觉问题研究综述. 软件学报. 2025, 36 (3): 1152–1185 [2025-10-25]. doi:10.13328/j.cnki.jos.007242. 
  20. ^ Jo, Eun Seo; Gebru, Timnit. Lessons from archives: strategies for collecting sociocultural data in machine learning. FAT* '20: Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency: 306 – 316. 2020-01-27. doi:10.1145/3351095.3372829. 
  21. ^ Matsakis, Louise. Artificial Intelligence May Not 'Hallucinate' After All. Wired. [2023-02-12]. ISSN 1059-1028. (原始内容存档于2023-03-26) (美国英语). 
  22. ^ Gilmer, Justin; Hendrycks, Dan. A Discussion of 'Adversarial Examples Are Not Bugs, They Are Features': Adversarial Example Researchers Need to Expand What is Meant by 'Robustness'. Distill. 2019-08-06, 4 (8). S2CID 201142364. doi:10.23915/distill.00019.1. (原始内容存档于2023-03-26). 
  23. ^ 23.0 23.1 Parikh, Ankur; Wang, Xuezhi; Gehrmann, Sebastian; Faruqui, Manaal; Dhingra, Bhuwan; Yang, Diyi; Das, Dipanjan. ToTTo: A Controlled Table-To-Text Generation Dataset. roceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP): 1173–1186. 2020. doi:10.18653/v1/2020.emnlp-main.89. 
  24. ^ Ran Tian; Shashi Narayan, Thibault Sellam, Ankur P. Parikh. Sticking to the Facts: Confident Decoding for Faithful Data-to-Text Generation. arXiv. 2020. doi:10.48550/arXiv.1910.08684. 
  25. ^ Longpre, Shayne; Perisetla, Kartik; Chen, Anthony; Ramesh, Nikhil; DuBois, Chris; Singh, Sameer. Entity-Based Knowledge Conflicts in Question Answering. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing: 7052–7063. 2021. doi:10.18653/v1/2021.emnlp-main.565. 
  26. ^ 26.0 26.1 Rishi Bommasani; Drew A. Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney von Arx, Michael S. Bernstein, Jeannette Bohg, Antoine Bosselut, Emma Brunskill, Erik Brynjolfsson, Shyamal Buch, Dallas Card, Rodrigo Castellon, Niladri Chatterji, Annie Chen, Kathleen Creel, Jared Quincy Davis, Dora Demszky, Chris Donahue, Moussa Doumbouya, Esin Durmus, Stefano Ermon, John Etchemendy, Kawin Ethayarajh, Li Fei-Fei, Chelsea Finn, Trevor Gale, Lauren Gillespie, Karan Goel, Noah Goodman, Shelby Grossman, Neel Guha, Tatsunori Hashimoto, Peter Henderson, John Hewitt, Daniel E. Ho, Jenny Hong, Kyle Hsu, Jing Huang, Thomas Icard, Saahil Jain, Dan Jurafsky, Pratyusha Kalluri, Siddharth Karamcheti, Geoff Keeling, Fereshte Khani, Omar Khattab, Pang Wei Koh, Mark Krass, Ranjay Krishna, Rohith Kuditipudi, Ananya Kumar, Faisal Ladhak, Mina Lee, Tony Lee, Jure Leskovec, Isabelle Levent, Xiang Lisa Li, Xuechen Li, Tengyu Ma, Ali Malik, Christopher D. Manning, Suvir Mirchandani, Eric Mitchell, Zanele Munyikwa, Suraj Nair, Avanika Narayan, Deepak Narayanan, Ben Newman, Allen Nie, Juan Carlos Niebles, Hamed Nilforoshan, Julian Nyarko, Giray Ogut, Laurel Orr, Isabel Papadimitriou, Joon Sung Park, Chris Piech, Eva Portelance, Christopher Potts, Aditi Raghunathan, Rob Reich, Hongyu Ren, Frieda Rong, Yusuf Roohani, Camilo Ruiz, Jack Ryan, Christopher Ré, Dorsa Sadigh, Shiori Sagawa, Keshav Santhanam, Andy Shih, Krishnan Srinivasan, Alex Tamkin, Rohan Taori, Armin W. Thomas, Florian Tramèr, Rose E. Wang, William Wang. On the Opportunities and Risks of Foundation Models. arXiv. 2021 [2025-10-25]. doi:10.48550/arXiv.2108.07258. 
  27. ^ Kojima, Takeshi; Gu, Shixiang Shane; Reid, Machel; Matsuo, Yutaka; Iwasawa, Yusuke. Large language models are zero-shot reasoners. Proceedings of the 36th International Conference on Neural Information Processing Systems. Curran Associates Inc. 2022-11-28. doi:10.5555/3600270.3601883. 
  28. ^ Sobieszek, Adam; Price, Tadeusz. Playing Games with Ais: The Limits of GPT-3 and Similar Large Language Models. Minds and Machines. 2022-06, 32 (2): 341–364. doi:10.1007/s11023-022-09602-0. 
  29. ^ 29.0 29.1 Durmus, Esin; He, He; Diab, Mona. FEQA: A Question Answering Evaluation Framework for Faithfulness Assessment in Abstractive Summarization. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: 5055–5070. 2020 [2025-10-26]. doi:10.18653/v1/2020.acl-main.454. 
  30. ^ Dhingra, Bhuwan; Faruqui, Manaal; Parikh, Ankur; Chang, Ming-Wei; Das, Dipanjan; Cohen, William. Handling Divergent Reference Texts when Evaluating Table-to-Text Generation. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: 4884–4895. 2019. doi:10.18653/v1/P19-1483. 
  31. ^ Potsawee Manakul; Adian Liusie, Mark J. F. Gales. SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models. arXiv. 2023 [2025-10-26]. doi:10.48550/arXiv.2303.08896. 
  32. ^ Cheng Niu; Yuanhao Wu, Juno Zhu, Siliang Xu, Kashun Shum, Randy Zhong, Juntong Song, Tong Zhang. RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models. arXiv. 2024 [2025-10-26]. doi:10.48550/arXiv.2401.00396. 
  33. ^ Wang, Zhenyi; Wang, Xiaoyang; An, Bang; Yu, Dong; Chen, Changyou. Towards Faithful Neural Table-to-Text Generation with Content-Matching Constraints. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: 1072–1086. 2020. doi:10.18653/v1/2020.acl-main.101. 
  34. ^ Shuster, Kurt; Poff, Spencer; Chen, Moya; Kiela, Douwe; Weston, Jason. Retrieval Augmentation Reduces Hallucination in Conversation. Findings of the Association for Computational Linguistics: EMNLP 2021: 3784–3803. 2021. doi:10.18653/v1/2021.findings-emnlp.320. 
  35. ^ Popović, Maja. chrF: character n-gram F-score for automatic MT evaluation. Proceedings of the Tenth Workshop on Statistical Machine Translation: 392–395. 2015. doi:10.18653/v1/W15-3049. 
  36. ^ Martindale, Marianna; Carpuat, Marine; Duh, Kevin; McNamee, Paul. Identifying Fluently Inadequate Output in Neural and Statistical Machine Translation. Proceedings of Machine Translation Summit XVII: Research Track. European Association for Machine Translation: 233–243. 2019-08 [2025-10-26]. 
  37. ^ Goodrich, Ben; Rao, Vinay; Liu, Peter J.; Saleh, Mohammad. Assessing The Factual Accuracy of Generated Text. KDD '19: Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining: 166 – 175. 2019-07-25. doi:10.1145/3292500.3330955. 
  38. ^ Nan, Feng; Nallapati, Ramesh; Wang, Zhiguo; Nogueira dos Santos, Cicero; Zhu, Henghui; Zhang, Dejiao; McKeown, Kathleen; Xiang, Bing. Entity-level Factual Consistency of Abstractive Text Summarization. Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume: 2727–2733. 2021. doi:10.18653/v1/2021.eacl-main.235. 
  39. ^ Dušek, Ondřej; Novikova, Jekaterina; Rieser, Verena. Evaluating the state-of-the-art of End-to-End Natural Language Generation: The E2E NLG challenge. Computer Speech & Language. 2020-01, 59: 123–156. doi:10.1016/j.csl.2019.06.009. 
  40. ^ Dušek, Ondřej; Kasner, Zdeněk. Evaluating Semantic Accuracy of Data-to-Text Generation with Natural Language Inference. Proceedings of the 13th International Conference on Natural Language Generation. 2020. doi:10.18653/v1/2020.inlg-1.19. 
  41. ^ Laban, Philippe; Schnabel, Tobias; Bennett, Paul N.; Hearst, Marti A. SummaC : Re-Visiting NLI-based Models for Inconsistency Detection in Summarization. Transactions of the Association for Computational Linguistics. 2022-02-09, 10: 163–177. doi:10.1162/tacl_a_00453. 
  42. ^ Jacob Devlin; Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv. 2019 [2025-10-26]. doi:10.48550/arXiv.1810.04805. 
  43. ^ Yinhan Liu; Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov. RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv. 2019 [2025-10-26]. doi:10.48550/arXiv.1907.11692. 
  44. ^ Pengcheng He; Xiaodong Liu, Jianfeng Gao, Weizhu Chen. DeBERTa: Decoding-enhanced BERT with Disentangled Attention. arXiv. 2021 [2025-10-26]. doi:10.48550/arXiv.2006.03654. 
  45. ^ Wang, Alex; Cho, Kyunghyun; Lewis, Mike. Asking and Answering Questions to Evaluate the Factual Consistency of Summaries. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: 5008–5020. 2020. doi:10.18653/v1/2020.acl-main.450. 
  46. ^ Nan, Feng; Nogueira dos Santos, Cicero; Zhu, Henghui; Ng, Patrick; McKeown, Kathleen; Nallapati, Ramesh; Zhang, Dejiao; Wang, Zhiguo; Arnold, Andrew O.; Xiang, Bing. Improving Factual Consistency of Abstractive Summarization via Question Answering. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing 1: 6881–6894. 2021. doi:10.18653/v1/2021.acl-long.536. 
  47. ^ Shakeri, Siamak; Nogueira dos Santos, Cicero; Zhu, Henghui; Ng, Patrick; Nan, Feng; Wang, Zhiguo; Nallapati, Ramesh; Xiang, Bing. End-to-End Synthetic Data Generation for Domain Adaptation of Question Answering Systems. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP): 5445–5460. 2020. doi:10.18653/v1/2020.emnlp-main.439. 
  48. ^ Nie, Feng; Yao, Jin-Ge; Wang, Jinpeng; Pan, Rong; Lin, Chin-Yew. Korhonen, Anna; Traum, David; Màrquez, Lluís , 编. A Simple Recipe towards Reducing Hallucination in Neural Surface Realisation. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (Florence, Italy: Association for Computational Linguistics). 2019-07: 2673–2679. S2CID 196183567. doi:10.18653/v1/P19-1256. 
  49. ^ Sullivan Jr., Jamar; Brackenbury, Will; McNutt, Andrew; Bryson, Kevin; Byll, Kwam; Chen, Yuxin; Littman, Michael; Tan, Chenhao; Ur, Blase. Explaining Why: How Instructions and User Interfaces Impact Annotator Rationales When Labeling Text Data. Association for Computational Linguistics. 2022 [2025-01-22]. doi:10.18653/v1/2022.naacl-main.38. (原始内容存档于2024-11-02) (英语). 
  50. ^ Gardent, Claire; Shimorina, Anastasia; Narayan, Shashi; Perez-Beltrachini, Laura. Creating Training Corpora for NLG Micro-Planners. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics 1: 179–188. 2017. doi:10.18653/v1/P17-1017. 
  51. ^ Gabriel, Saadia; Celikyilmaz, Asli; Jha, Rahul; Choi, Yejin; Gao, Jianfeng. GO FIGURE: A Meta Evaluation of Factuality in Summarization. Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021: 478–487. 2021. doi:10.18653/v1/2021.findings-acl.42. 
  52. ^ Dziri, Nouha; Kamalloo, Ehsan; Milton, Sivan; Zaiane, Osmar; Yu, Mo; Ponti, Edoardo M.; Reddy, Siva. FaithDial : A Faithful Benchmark for Information-Seeking Dialogue. Transactions of the Association for Computational Linguistics. 2022-12-23, 10: 1473–1490. doi:10.1162/tacl_a_00529. 
  53. ^ Rebuffel, Clement; Roberti, Marco; Soulier, Laure; Scoutheeten, Geoffrey; Cancelliere, Rossella; Gallinari, Patrick. Controlling hallucinations at word level in data-to-text generation. Data Mining and Knowledge Discovery. 2022-01, 36 (1): 318–354. doi:10.1007/s10618-021-00801-4. 
  54. ^ Xiao, Yijun; Wang, William Yang. On Hallucination and Predictive Uncertainty in Conditional Language Generation. Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: 2734–2744. 2021. doi:10.18653/v1/2021.eacl-main.236. 
  55. ^ Song, Kaiqiang; Lebanoff, Logan; Guo, Qipeng; Qiu, Xipeng; Xue, Xiangyang; Li, Chen; Yu, Dong; Liu, Fei. Joint Parsing and Generation for Abstractive Summarization. Proceedings of the AAAI Conference on Artificial Intelligence 34. 2020-04-03. doi:10.1609/aaai.v34i05.6419. 
  56. ^ Balakrishnan, Anusha; Rao, Jinfeng; Upasani, Kartikeya; White, Michael; Subba, Rajen. Constrained Decoding for Neural NLG from Compositional Representations in Task-Oriented Dialogue. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: 831–844. 2019. doi:10.18653/v1/P19-1080. 
  57. ^ Marc'Aurelio Ranzato; Sumit Chopra, Michael Auli, Wojciech Zaremba. Sequence Level Training with Recurrent Neural Networks. arXiv. 2016 [2025-10-26]. 
  58. ^ Cao, Meng; Dong, Yue; Wu, Jiapeng; Cheung, Jackie Chi Kit. Factual Error Correction for Abstractive Summarization Models. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP): 6251–6258. 2020. doi:10.18653/v1/2020.emnlp-main.506. 
  59. ^ Kumar, Krishna. Geotechnical Parrot Tales (GPT): Harnessing Large Language Models in Geotechnical Engineering. Journal of Geotechnical and Geoenvironmental Engineering. 2024-01, 150 (1). doi:10.1061/JGGEFK.GTENG-11828. 
  60. ^ Ullah, Nasib; Mohanta, Partha Pratim. Thinking Hallucination for Video Captioning. Computer Vision – ACCV 2022 13844. 2023. doi:10.1007/978-3-031-26316-3_37. 

外部連結

[编辑]