o3权威评测报告：AI能力实现关键跃升，但仍未达到AGI水平 [复制链接]

see122

军衔等级：

三级军士长

电梯直达

1^# 大中小

发表于 2024-12-21 13:10:08 |只看该作者 |倒序浏览

12月21日消息，OpenAI发布最新一代推理模型o3的同一天，知名法国计算机科学家和机器学习研究者、ARC Prize基金会的创始人弗朗索瓦·肖莱（Franois Chollet）撰写报告称，o3在ARC-AGI基准测试中取得了突破性高分。ARC-AGI是一个专门设计用来测试人工智能模型对极其困难的数学和逻辑问题进行推理的能力的基准测试。

肖莱在报告中指出，OpenAI最新推出的o3模型，在基于ARC-AGI-1公共训练集的训练下，在遵守公开排行榜规定的1万美元计算限制（compute limit）的前提下，在半私有评估集上取得了75.7%的突破性高分。而在高计算量（172倍）配置下的o3模型，得分更是达到了87.5%。

这一成绩标志着人工智能能力出现了令人震惊且关键的跃升，展现出GPT系列模型中前所未有的新任务适应能力。举例来说，在ARC-AGI-1的测试中，得分从2020年GPT-3的0%增长到2024年GPT-4o的5%，这一过程用了整整四年。如今，对于人工智能能力的所有预设认知都需要因o3而重新评估。

ARC Prize，这项逾百万美元的公共竞赛，其目标不止于超越ARC的首个基准测试，更旨在成为引领我们通往通用人工智能（AGI）的“北极星”。ARC Prize基金会对于明年与OpenAI团队及其他合作伙伴共同设计下一代、持久的通用人工智能基准测试感到兴奋。ARC-AGI-2将于2025年与ARC Prize一同启动。ARC Prize基金会承诺将持续举办大奖赛，直至出现一个高效且开源的解决方案，其得分达到85%。

以下为报告全文：

我们对o3系统进行了两项ARC-AGI数据集的测试：

--半私有评估集：用于评估过拟合的100个私有任务；

--公开评估集：400个公开任务。

根据OpenAI的指导，我们在两个计算级别的不同样本大小下进行了测试：6（高效率）和1024（低效率，172倍计算量）。

以下是测试结果：

注：由于定价和功能可用性尚未确定，目前无法提供o3高计算量的成本信息。高计算量配置的计算量大约是低计算量配置的172倍。

鉴于不同的推理预算，效率——尤其是计算成本——已成为衡量性能时不可或缺的指标。我们已经记录了总成本和每个任务的成本，以此作为衡量效率的初步指标。在整个行业中，我们需要确定哪个指标最能反映效率，但从大方向来看，成本是一个合理的起点。

在高效率模式下，75.7%的得分符合ARC-AGI-Pub的预算规定（成本低于1万美元），因此有资格占据公共排行榜的首位。

尽管低效率模式下的87.5%得分代价不菲，但它仍然显示了随着计算量的增加，新任务的性能确实有所提升——至少在这个层面上是如此。

这些成绩并非单纯依靠增加算力资源来实现的。OpenAI的新o3模型在适应新任务方面取得了重大进步，这不仅仅是渐进式的改进，而是一次真正的突破，标志着人工智能能力相比以往的大语言模型有了质的飞跃。o3能够适应它之前从未遇到过的任务，其在ARC-AGI领域的表现接近人类的水平。

当然，这种泛化能力的成本相当高，目前看来还不太经济。你可以支付给人类大约5美元来完成ARC-AGI任务（我们确实这样做过），同时仅消耗少量能源。而o3在低计算模式下每个任务的成本则在17到20美元之间。不过，预计在未来几个月到几年内，成本性能将显著提高，因此我们可以预见这些能力将在不久的将来与人类工作形成竞争。

o3是不是通用人工智能？

ARC-AGI作为一个关键的基准测试，能够突显人工智能的泛化能力，这是那些已经饱和或要求不高的基准测试所无法做到的。然而，我们必须明确，ARC-AGI并不是衡量通用人工智能终极标准——这一点我们今年已经多次强调。它是一个研究工具，旨在集中精力解决人工智能领域中最棘手的未解问题。过去五年来，它在这方面发挥了重要作用。

通过ARC-AGI的测试并不等于实现了通用人工智能。实际上，我认为o3尚未达到通用人工智能的水平。o3在一些相对简单的任务上仍然表现不佳，这表明它与人类智能之间存在本质差异。

此外，初步数据表明，即将到来的ARC-AGI-2基准测试对o3来说仍然是一个重大挑战，即使在高计算量的情况下，也可能将其得分降至30%以下，而一个普通人即使没有经过训练，也能轻松获得超过95%的得分。这显示了我们有能力创建具有挑战性、未达到饱和状态的基准测试，而不必依赖于专家的领域知识。当设计出对普通人容易但对人工智能困难的任务变得不可能时，那就意味着通用人工智能真的到来了。

o3与旧模型相比有何区别？

为何o3的得分远超过o1？同样，o1的得分又为何远超过GPT-4o？我认为，这一系列结果为通用人工智能的持续追求提供了极有价值的数据点。

我对大语言模型的理解是，它们像一个向量程序的仓库。当接收到提示时，它们会检索与提示相匹配的程序，并在当前输入上“执行”它。大语言模型通过被动接触人类生成的内容，存储和操作化数以百万计的有用小程序。

这种“记忆、检索、应用”的模式，在给定适当的训练数据时，可以在任意任务上达到任意水平的技能，但它无法适应新情况或即时掌握新技能（也就是说，这里没有所谓的流动智能）。这一点在大语言模型在ARC-AGI上的表现中得到了体现，ARC-AGI是专门设计来衡量对新事物适应性的基准测试——GPT-3得分为0，GPT-4接近0，GPT-4o达到了5%。将这些模型扩展到极限，并没有使ARC-AGI的得分接近几年前基本的蛮力枚举就能达到的水平（高达50%）。

要适应新事物，你需要两样东西。首先，你需要知识——一套可重复使用的功能或程序。大语言模型已经拥有足够的知识。其次，你需要在面对新任务时重新组合这些功能成一个全新的程序——即程序合成。大语言模型长期以来缺乏这一特性，而o系列模型弥补了这一点。

目前，我们只能推测o3的确切工作方式。但o3的核心机制似乎是在token空间内进行自然语言程序搜索和执行——在测试时，模型搜索可能的思维链（Chains of Thought, CoTs）描述解决任务所需的步骤，这种方式可能与AlphaZero风格的蒙特卡洛树搜索相似。在o3的情况下，搜索可能由某种评估模型引导。值得注意的是，Demis Hassabis在2023年6月的一次采访中暗示DeepMind一直在研究这个想法——这项工作已经酝酿了很长时间。

因此，虽然单一代大语言模型在新事物上挣扎，但o3通过生成和执行自己的程序克服了这一点，其中程序本身（CoT）成为知识重组的产物。尽管这不是测试时知识重组的唯一可行方法（你也可以进行测试时训练，或在潜在空间中搜索），但根据这些新的ARC-AGI得分，它代表了当前技术的最新水平。

实际上，o3代表了一种深度学习引导的程序搜索形式。模型在“程序”空间（在这种情况下，自然语言程序——描述解决手头任务步骤的思维链空间）上进行测试时搜索，由深度学习引导。解决单个ARC-AGI任务可能最终需要数千万个token，成本数千美元，是因为这个搜索过程必须探索程序空间中的大量路径--包括回溯。

然而，这里发生的事情与我之前描述的“深度学习引导的程序搜索”作为达到通用人工智能的最佳路径有两个显著的区别。关键的是，o3生成的程序是自然语言指令（由大语言模型“执行”），而不是可执行的符号程序。这意味着两件事。首先，它们不能通过执行和直接评估任务与现实接触——相反，它们必须通过另一个模型进行适应性评估，而缺乏这种基础的评估可能在操作分布之外时出错。其次，系统不能自主地获得生成和评估这些程序的能力（就像AlphaZero这样的系统可以自己学会玩棋盘游戏一样）。相反，它依赖于专家标记的、人类生成的CoT数据。

目前尚不清楚新系统的具体局限性以及它可能扩展的范围。我们需要进一步的测试来找出答案。无论如何，当前的性能代表了一项了不起的成就，并且清楚地证实了直觉引导的测试时程序空间搜索是一个强大的范式，可以构建能够适应任意任务的AI系统。

接下来会发生什么？

首先，通过2025年的ARC Prize竞赛促进o3的开源复制对于推动研究社区向前发展至关重要。对o3的优势和局限性进行全面分析是必要的，这有助于我们理解其扩展行为、潜在瓶颈的性质，并预测进一步发展可能解锁的能力。

此外，ARC-AGI-1现在已趋于饱和——除了o3的新得分外，事实上，一个大型的低计算量Kaggle解决方案集合现在可以在私有评估中得到81%的分数。

我们将通过新版本——ARC-AGI-2——来提高标准，该版本自2022年以来一直在开发中。它承诺将重置技术的最新水平。我们希望它通过具有挑战性的、高信号的评估来推动AGI研究的界限，这些评估突显了当前人工智能的局限性。

我们对ARC-AGI-2的早期测试表明，即使对于o3来说，它也将是有用且极具挑战性的。当然，ARC Prize的目标是产生一个高效且开源的解决方案，以赢得大奖。我们目前计划在ARC Prize 2025（预计启动时间：第一季度末）同时推出ARC-AGI-2。

展望未来，ARC Prize基金会将继续创建新的基准，以集中研究人员的注意力在通往通用人工智能的道路上最难解决的问题上。我们已经开始了第三代基准的工作，它完全脱离了2019年ARC-AGI的格式，并融入了一些令人兴奋的新想法。

邀请参与开源分析：

今天，我们发布了高计算量的o3标记任务，并希望得到外界的帮助进行分析。特别是，我们对于o3无法解决的大约9%的公共评估任务非常感兴趣，即使在大量计算资源的支持下，这些任务对人类来说却非常简单。

我们邀请社区帮助我们评估解决和未解决任务的特征。

为了激发外界想法，这里有3个高计算量o3未能解决的任务示例。

结论

总结来说，o3代表了向前迈出的重要一步。它在ARC-AGI上的表现凸显了在适应性和泛化方面的真正突破，这是其他任何基准测试都无法如此明确展现的。

o3解决了大语言模型范式的根本局限性——在测试时无法重新组合知识——并且通过一种大语言模型引导的自然语言程序搜索形式来实现这一点。这不仅仅是渐进式的进步；它是新领域的开拓，需要严肃的科学关注。

来源：36kr

本主题由版主或管理员于 2024-12-21 14:45 审核通过

0 举报本楼

本帖有 1 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2024-12-22 20:29 , Processed in 0.201089 second(s), 16 queries , Gzip On.

Discuz Licensed

回顶部

		自动登录	找回密码
密码			注册