早在 1995 年,计算机科学家 斯蒂芬·塞勒(Stephen Thaler)在当时的人工智能背景下引入了幻觉的概念,这一概念最初被用于指代神经网络中自发产生的新想法或概念,因为这与人类的幻觉类似,没有明确的外部信息输入。因此,在很长一段时间里,在 AI 领域“幻觉”是一个带有一定褒义色彩的术语,“有幻觉”意味着你的 AI 具备一定创造性能力。
在 2017 年左右,这个术语发生了色彩上的变化,因为在这个时间点,世界上已经存在一些可以稳定凭空生成图像或文字的 AI 了,因此创造性不再是一个远在天边不可实现的目标。在当年 Google 的一篇论文中,研究人员开始用幻觉描述那些在使用神经机器翻译模型时,生成与原文不相符的译文的现象。
数据是幻觉的根源。有缺陷的数据源可能包含错误信息和偏见,导致模型模仿性错误。比如,训练数据中包含大量的科幻小说,而在数据集中并未给这些语料标注虚构,那么 AI 就有可能对那些科幻小说中的设定“信以为真”。此外,数据源还可能存在知识边界,即缺乏特定领域知识或过时的信息,使得模型在面对特定问题时“无中生有”。即使数据本身没有问题,模型也可能因为对数据利用不当而产生幻觉。模型可能过度依赖数据中的虚假关联,或者在面对长尾知识或复杂推理场景时出现知识回忆失败,从而生成不准确的内容。
这意味着,当律师让其“寻找”类似案例时,ChatGPT 是不可能完成这个任务的。而系统指令又要求 AI 在这种情况下应该“说点什么”,于是 ChatGPT 编造了完整的相关案例,包括虚假的姓名、案卷号、案情,等等。
当法院发现这一点时,律师表示非常后悔,这是他第一次使用 ChatGPT 来作为法律研究工具,并且他主观上不知道“AI 可能会编造内容”,也没有去一一验证那些由 AI 提供的案件是否真实存在,并承诺在未来如果使用 AI 进行法律研究,他一定会验证真实性。
法庭接受了律师的忏悔,但驳回了诉讼请求,并对律师事务所罚款 5000 美元。
然而,幻觉可能带来的损失,还不止于此,在接下来这个案例中,它甚至可能直接威胁生命:
2023 年 9 月 1 日,英国卫报的一名记者发现,在亚马逊电子书的旅游类排行榜上,充斥着由 AI 制作的书籍。这些书籍的作者从未到访过他们所介绍的地方,他们只是简单地给 AI 下了几条提示词,AI 便根据自身的知识库和互联网上可能搜集到的信息生成了完整的电子书。
与其他幻觉造成的损失一样,这些书籍的作者当然没有去验证这些 AI 生成书籍的真伪——毕竟如果他们真去了这些地方实地探访,又何必需要由 AI 来撰写呢?
然而问题是,其中的部分书籍不仅涉及“旅游”,还涉及旅游过程中的“饮食”,比如挖蘑菇。
记者发现了至少四本完全由 AI 撰写的关于挖蘑菇的电子书,其中包括Wild Mushroom Cookbook: form sic forest to gourmet plate, a complete guide to wild mushroom cookery (《野生蘑菇食谱:从森林到美食盘子,野生蘑菇烹饪的完整指南》) 和The Supreme Mushrooms Books Field Guide of the South-West (《西南部最高蘑菇书籍野外指南》) 。
这就非常可怕了。
记者随后联系了一位专门从事野外菌菇探索的专家来审查这些由 AI 生成的“蘑菇路书”,结果是非常危险。因为部分电子书描述了如何依靠嗅觉和味觉来判别蘑菇是否可以食用。
比如,2023 年 2 月,Google 基于追赶 ChatGPT 而首次公开演示其模型 Bard AI 时,这款产品在许多问题上给出了错误的回答,这一度导致 Google 的股票大跌。
为了解决这个问题,在 Google 后续的 Gemini 面向用户发布时,推出了“核查回答”功能。这个功能允许用户通过一键来验证 Gemini 给出的答案是否可靠。它的 原理是,在用户点击这个按钮之后,Gemini 在此启动,将刚刚回答中的每一个事实都进行一次 Google 搜索,然后通过对比 Google 搜索中得到的结果来验证 Gemini 在首次回答时给出的答案是否有据可查。
鉴于短期内,单凭大语言模型这一单一技术可能无法克服其自身所产生的幻觉,类似 Gemini“核查回答”这样的外挂式防护措施,将成为解决 AI 幻觉,提高 AI 系统稳定性的重要方法。