Dwarkesh Patel:你可能会认为,要想模仿互联网上数万亿的文本 token,你必须先建立一个世界模型。事实上,这些模型似乎确实展现出了强大的世界建模能力。它们是我们在 AI 领域迄今为止创造的最好的世界模型,对吧?您认为还缺少什么?
Richard Sutton:我不同意你刚才说的大部分内容。模仿人类语言,并不等于在建立世界模型。那只是在模仿那些拥有世界模型的人类。我并不是想采取对抗的立场,但我想质疑“大语言模型具备世界模型”这个观点。一个真正的世界模型,应该能预测未来会发生什么。大语言模型能预测某个人会说什么,但没法预测世界上会发生什么。
借用 Alan Turing 的话来说,我们真正想要的,是一台能从经验中学习的机器。而“经验”,就是你实际生活中遭遇的事情:你采取行动,观察结果,并从中学习。而大语言模型学到的却是另一种模式:给定一个情境,它们学习某个人会怎么做,并隐含地暗示你应该照着那个人的做法去做。
Richard Sutton:数学问题是不同的。构建物理世界的模型,与在数学中演绎推理、计算结果,完全是两回事。经验世界必须通过交互去学习,需要从结果中得到反馈。而数学更偏向计算,更像是标准的规划,目标比较清晰:找到证明。某种意义上,它们被赋予了“找到证明”的目标。
Dwarkesh Patel:您在 2019 年写了一篇题为《惨痛的教训》(The Bitter Lesson)的文章,这也许是 AI 历史上最具影响力的文章。如今,人们正把它作为扩语言模型规模的依据,因为在他们看来,这是我们目前唯一能找到的可扩展方案,就是用海量算力去探索世界。有趣的是,您却认为大语言模型并没有真正吸取“苦涩的教训”。
Richard Sutton:大语言模型是否是“苦涩的教训”的一个案例,这是一个有趣的问题。它们显然是一种利用大规模计算的方法,这种计算可以随着互联网数据的极限扩展。但它们也是一种融入大量人类知识的方式。这确实是个值得探讨的问题——既涉及社会学层面,也关乎产业未来。它们是否会触及数据极限,最终被那些仅凭经验而非人类知识就能获取更多数据的新事物所取代?