通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  三级军士长

注册:2007-10-294
跳转到指定楼层
1#
发表于 2024-11-26 18:03:12 |只看该作者 |倒序浏览
简单扩大模型规模带来的边际效益正在递减,而推理能力将成为未来突破口——从"买更大的算力"变成了"多给AI一点思考时间"。
AI狂飙突进的时代,真的要结束了吗?

随着scaling law撞墙新闻爆出,全球科技圈、资本市场关于大模型发展触及天花板的讨论愈演愈烈。那么,AI发展是否放缓?后续又将如何发展?商业模式如何突破?

针对一系列焦点问题,人工智能领域最具影响力的论文《Attention Is All You Need》的联合作者,Cohere联合创始人兼CEO Aidan Gomez在访谈中分享了自己对AI发展的深度见解。

他认为,LLM发展已进入平台期,而推理能力将成为未来突破口,并将带来新的商业模式和市场机遇。同时,他也提醒投资者警惕模型价格倾销,关注 AGI 发展趋势。

对于scaling law放缓的问题,Gomez认为,简单扩大模型规模带来的边际效益正在递减。

以绘画为例,Gomez指出,LLM 的发展初期如同用大笔触快速完成基础构图,但随着模型需要处理更精细的任务,如同绘画需要越来越细的笔触来完善细节,模型改进需要的数据也越来越精细,这导致获取高质量数据的成本越来越高,最终模型的规模化发展将受限于人类知识的边界和专家数据的获取难度。

推理能力方面,Gomez表示,推理能力可以让 LLM 不仅简单地记忆输入输出对,还可以像人类一样进行多步骤的思考和推理,解决更复杂的问题。而这,这带来了一个革命性的变化——企业不必再为提升AI能力投入巨额固定成本,而是可以通过增加推理时间来实现。用通俗的话说,就是从"买更大的算力"变成了"多给AI一点思考时间"。

Gomez还认为,推理时间计算量的增加还将对芯片层和数据中心建设产生影响,未来需要开发更适合处理推理任务的芯片,以及建设更适合分布式计算的数据中心。



《Attention Is All You Need》作者与黄仁勋,Aidan Gomez(上图左三)


01

大型语言模型 (LLM) 发展进入平台期

推理能力成突破口

问:LLM 发展是否已经进入平台期?未来的突破口在哪里?

Gomez:

LLM 性能提升已进入平台期,边际效益递减。[2, 6] 简单地扩大模型规模带来的性能提升有限,就像油画创作从大笔触的构图阶段进入到需要用越来越细的笔触来完善细节的阶段。

模型改进需要越来越精细的数据。LLM 在处理简单、常见的任务时可以快速提升,但在处理更专业、敏感的领域(如科学、数学)时,性能提升的难度越来越大,因为需要更精细、专业的数据来训练模型。

推理能力将成为 LLM 未来发展的新突破口。[3, 5] 推理能力可以让 LLM 不仅简单地记忆输入输出对,还可以像人类一样进行多步骤的思考和推理,解决更复杂的问题,例如多项式求解。

问:影响模型规模化发展的因素有哪些?

Gomez:

合成数据可以帮助模型在某些领域(如代码、数学)提升性能。因为这些领域的答案易于验证,可以通过合成大量数据来训练模型。

但在其他需要真实世界知识的领域(如生物学、化学),数据的获取难度更大,需要依赖专家知识。

最终,模型的规模化发展将受限于人类知识的边界和专家数据的获取难度。

02

推理能力将带来新的商业模式和市场机遇

问:推理能力将如何改变行业格局?

Gomez:

推理能力的出现将带来新的商业模式。

客户可以通过增加推理时间计算量来获得更智能的模型,而无需等待数月进行新的模型训练。这意味着客户可以根据需求灵活地调整模型性能,获得更好的产品体验。

这种从资本支出(CAPEX)模式到消费模式的转变将吸引更多客户投资于解决问题,而无需承担高昂的训练成本和时间成本。

推理时间计算量的增加还将对芯片层和数据中心建设产生影响,未来需要开发更适合处理推理任务的芯片,以及建设更适合分布式计算的数据中心。

问:如何理解推理能力?

Gomez:

目前的 LLM 缺乏像人类一样的“内心独白”,无法进行多步骤的推理思考。它们只能根据输入直接给出输出,而不能像人类一样在解决问题时进行思考、尝试、纠错,最终找到解决方案。

推理能力的加入将使 LLM 可以像人类一样进行多步骤的思考和推理。这种能力将通过使用人类数据和合成数据,明确地收集人们的内心想法并进行训练来实现。

问:什么类型的问题更适合使用推理能力解决?

Gomez:

任何需要多步骤解决的问题都更适合使用推理能力来解决。例如,多项式求解,人类在解决这类问题时,需要将其分解成多个步骤,逐步解决,最终得到答案。而目前的 LLM 只能通过记忆的方式来解决这类问题。

问:市场普遍低估了推理时间计算的哪些方面?

Gomez:

推理时间计算在提供智能方面的作用尚未被市场充分认识。

推理能力的加入为客户提供了一种新的选择:客户可以通过增加推理时间计算量来获得更智能的模型。

03

自主研发模型

打造差异化竞争优势

问:Cohere 为什么选择自主研发模型?

Gomez:

虽然开源模型提供了基础模型,但微调效果不如自主研发。

自主研发能够控制数据和训练过程,为客户提供更多定制化选项。

问:LLM 是否适用于所有领域?

Gomez:

虽然 Transformer 模型可以处理很多问题,但在某些领域可能效率较低,例如图结构数据。

在这些领域,可能需要更专业的模型才能实现更高的效率。

04

警惕模型价格倾销

关注 AGI 发展趋势

问:市场上 LLM 价格下降是否意味着模型商品化?

Gomez:

市场上出现的模型价格下降并非商品化的标志,而是价格倾销的结果。

模型构建需要高度的技术能力,只有少数公司掌握核心技术。

未来市场将受到增长压力和投资回报率的影响,目前以亏损或免费提供昂贵技术的做法是不可持续的。

问:如何看待 AGI 的发展?

Gomez:

AGI 并非一个非黑即白的概念,而是一个持续发展的过程,我们已经在构建通用智能机器的道路上取得了很大进展。

超级智能的快速发展和自我提升并不会导致像电影“终结者”中那样的人类灭绝。

人类将利用人工智能技术创造富足,而不是依赖于一个“上帝”般的超级智能来实现。


来源:36kr

举报本楼

本帖有 4 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-12-23 02:49 , Processed in 0.164828 second(s), 17 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部