近日,IBM 旗下的《Mixture of Experts》邀请了来自 AI 模型、智能体、硬件和产品研发四大领域的顶级专家,深度解析 2024 年 AI 技术的突破性进展。
这场长达一小时的巅峰对话,将目光聚焦在四个重要维度:高性能 AI 模型的演进路径、智能体技术的突破与革新、AI 硬件格局的剧变,以及年度重磅产品带来的行业洞见。每场主题两位专家,上演了一场“八仙过海”,总结出2025 年三大关键转折点:开源模型与闭源模型将首次平分秋色,超级智能体时代即将到来,英伟达在 AI 芯片市场的主导地位将面临前所未有的挑战。
主持人:回想 2024 年 1 月,我们还在热议 GPT Store 的上线和 Claude 2.1 展现的长上下文窗口能力,那时的我们正翘首期待 Llama 3 的发布。毫无疑问,2024 年是一个激动人心的变革之年。
为了全面回顾这一年的发展,我们邀请了多位业界专家,请他们分享各自领域的亮点与不足,并展望 2025 年的发展趋势。我们将深入探讨 AI 智能体(Agent)、硬件进展以及全年重要的产品发布。首先,让我们聚焦 2024 年 AI 模型领域的发展。为此,我们特别邀请到了 IBM 高级研究科学家 Marina Danilevski,以及负责 IBM 美国、加拿大和拉丁美洲 AI 咨询业务的高级合伙人 Shobhit Varshney。
因此,我们看到了这样的转变:从规模惊人且具备更强思考能力的模型开始,在用尽所有公共互联网数据后,我们现在更专注于高质量的企业数据或为特定模型定制的数据。如今一个规模极大的指导模型,能够很好地思考整个问题,可以创建合成数据,可以帮助训练更小的模型,可以蒸馏出一个能够以较低价格提供高性能的模型。这表明我们在思考 AI 模型和构建投资方式上已经发生了重大转变。2025 年及以后的发展将会呈现出完全不同的局面。
Shobhit Varshney:我们最近为 AI 报告进行的一项调查显示,全球约 15%的客户已经通过应用生成式 AI 获得了实实在在的价值。过去很多知识都被锁在文档和流程中,而现在我们看到客户在一些小型但复杂的工作流程上取得了显著进展,并从中获得了卓越的价值。
我认为通用的 Copilot 或 AI 助手可能没有带来足够的价值,这使得关注点转向了如何将 AI 与企业自身的数据和知识更好地结合。但总的来说,我认为过去的几周正是 AI 发展史上最精彩的时刻之一:OpenAI、谷歌之间的竞争,以及 Meta 的加入,在整个社区中引发了巨大的变革。现在我们已经拥有了出色的模型,开始思考如何更好地控制它们,使它们适应企业工作流程和数据集,并让它们能够更好地使用工具进行思考和推理。关于 o1 的重大进展,我认为这将成为历史上的一个重要节点,因为我们开始意识到每月 200 美元实际上是非常有价值的投资。当你意识到每月支付 200 美元时,你会更加专注于哪些工作流程真正能够通过 AI 得到提升。现在我们已经到了一个阶段,这笔投资可以真正增强日常生活的方方面面。我认为每月 200 美元是一个很好的起点。
现在我们正在重新学习如何教育年轻一代,比如尝试不同的方法,制定计划,回答问题,必要时使用计算器等工具。这让我想起了教育孩子的过程。作为一个有孩子的父亲,我经常会思考这一点。我发现我们在训练 AI 模型的方式上有很多相似之处:我们对孩子进行强化学习,给予他们奖励和激励机制,我们把问题分解成更小的部分,让他们逐步解决每个部分。通过积极的强化,当他们做对时就会得到激励。我认为我们正在达到这样一个阶段:我们开始更深入地理解这些模型是如何学习的。
所以我认为,明年我们确实会看到更多发展。我本来期望今年能看到更多针对科学领域的模型,也许要等到明年了。可能我们会看到在视频处理方面更成功的模型,不仅仅是像 Sora 这样的产品,而是在更底层有更实用的应用,比如在机器人领域。那里还有很多潜力可以挖掘。所以,炫目的应用固然有趣,但真正的实用价值可能在某个更基础的层面,尤其是在硬件相关领域。
Shobhit Varshney:我认为多模态领域在未来几年将会迎来令人振奋的发展。这个领域之所以重要,是因为它能够理解人类所看到的、感受到的、观察到的、阅读到的和听到的所有信息,这对于 AI 助手更好地帮助我们至关重要。
比如,从任何语言直接转换到另一种语言的模型,特别是直接的语音到语音的转换,这些都在提供卓越的用户体验。如果你看看传统的 AI 处理方式,通常是先将语音转换为文本,然后将文本输入 AI 模型,AI 模型想出回应内容,最后再从文本转回语音。在转录和翻译过程中损失了很多信息。而现在,当你开始直接从一种媒体形式转换到另一种时,比如直接从语音到语音,模型开始能够理解人类说话的细微差别。我对明年在多模态、小型化和完整上下文处理方面的发展感到非常期待。这真是令人振奋的发展方向。
「元年志」:超级智能体的崛起
主持人:接下来,让我们把话题转向 2024 年的智能体(Agent)技术。为此,我们邀请到了两位嘉宾:IBM 杰出工程师、用户转换 CTO Chris Hay,以及 IBM AI 孵化项目产品经理 Maya Murad。
Chris Hay:从我的角度来看,Tim,在那个市场中有一些明显的应用场景,比如翻译。说实话,我认为现在的语言模型还没有真正很好地掌握翻译能力。有些模型在某些语言上做得很好,但如果你考虑那些不太常用的语言,大型模型就显得力不从心了。这时就需要专门针对特定语言训练的专业模型。所以我认为这可能是一个真正的机会,将这些较小的语言模型与智能体结合起来提供翻译服务。再加上领域服务,比如法律领域,这是你非常熟悉的,Tim,我认为这可能会成为市场的一大部分。
但我希望不仅仅局限于这些个别的智能体。任何信息,可能是体育比分,可能是高尔夫比分,可能是戏剧资讯,都可能成为应用场景。这就是我对 2025 年的另一个预测:我认为我们将看到万维网的一次重大转变。今天,HTML 等是互联网的主导标记语言,但这并不是为 LLM 设计的,也不是为智能体设计的。所以我在想,为了让智能体蓬勃发展,不仅仅需要有市场,还要有标记数据的新方式。我们之前谈到了 MCP,我想我们会开始看到新类型的网页出现,其中的内容是专门为智能体优化的,不仅仅是为人类设计的。所以我预测我们将开始看到网络向所谓的 Web 4.0 转变。我试图避免使用 Web 3.0 这个术语,这里我们会看到专门为智能体消费设计的内容。
主持人:对智能体的承诺会引发如此大的兴趣,以至于我们几乎要重构整个网络,使其对智能体更安全或更有效。我猜很多正在构建的技术栈和互操作性标准,在某种程度上都是在尝试实现这一点。Maya,你同意这个观点吗?你认为这就是未来的方向吗?我们会有一个智能体标记语言,某种程度上就像 HTML 一样?
你今天就能看到这种趋势,对吧?LLM 已经在生成代码了,比如又一个斐波那契函数实现。说实话,我这辈子不需要再看到另一个斐波那契函数的实现了,我们已经有太多了。所以我认为会出现类似于 NPM 那样的东西,在那里你有一个庞大的 AI 库,你可以提取你需要的函数。我认为就像 AI 操作系统一样,未来将出现 AI 编程语言和库,一切会更加原生化。这将有助于编程的发展。很有趣,对吧?会是 2025 年吗?也许,也许是 26 年。但我认为这就是我们要去的方向。
Maya Murad:就目前我们拥有的技术而言,我对我在 Replit 上看到的能力印象深刻,这是一款 AI 编程助手,能够构建完整的全栈应用程序。这是一个很有趣的范式,就像通过对话来构建应用程序。我真的看到了创建数字界面和代码库的能力正在以前所未有的方式普及化,这完全得益于我们现有的智能体技术。我只是认为这里还有类似于“最后一公里”的问题需要解决。我相信明年这个领域会有重大突破。
「封神榜」:芯片新秩序
主持人:接下来有请两位来自 IBM 的硬件专家,Khaoutar El Maghraoui 是我们 AI 工程的首席研究科学家,负责人工智能硬件中心;Volkmar Uhlig 则是我们的副总裁,负责人工智能基础设施组合。
首先请教 Volkmar,当我们谈论 AI 硬件时,这几乎成了与英伟达相关的代名词。我很好奇你认为今年英伟达最重要的故事是什么?对我来说,最引人注目的是即将推出的 GB200 的发布。在你回顾 2024 年时,是否还有其他重要的事件引起了你的关注?
主持人:Khaoutar,当前最被低估的趋势是什么?在 AI 硬件领域,是否有一些人们没有充分关注的发展方向?你知道,AI 硬件领域有很多炒作。所以我很好奇是否有一些更微妙的趋势你认为值得关注?
Khaoutar El Maghraoui:这是一个很好的问题。我认为有很多关于实时计算优化的工作被低估了。例如,像测试期计算(test-time compute)这样的技术,它允许 AI 模型在推理过程中动态分配额外的计算资源。这是我们在 OpenAI o1 模型中看到的技术,它真的在这里树立了一些重要的先例,它允许模型有效地分解复杂问题,某种程度上模仿了人类推理的方式。这也对我们设计这些模型的方式以及模型与硬件的交互方式产生了深远影响。在这种情况下,它推动了更多的硬件软件协同设计,特别是在推理过程中的处理优化。
主持人:第一个方面,2024 年确实是开源领域反击的一年。曾经有那么一段时间,感觉所有闭源模型真的会主导市场。而现在开源活动的爆发真的非常令人兴奋。第二个方面,就是“明智工作,而不是盲目增加工作量”的理念。我认为我们在很多领域都开始看到新技术发挥作用。在开源领域,这也是 Llama 3 的一年。那请问 Kush,回顾 2024 年,无论是开源方面还是在 AI 方面,有什么值得铭记的内容?
Kush Varshney:是的,“开源的回归”。我认为这是一个准确的描述。当我们与各行各业的客户交谈时,我们发现他们在 2023 年主要关注的是概念验证和类似的工作,比如让公司内部的人们认识到生成式 AI 可能发挥的作用。但随着时间推移,他们意识到实际落地时需要考虑版权数据、其他治理问题、成本,以及如何使这些系统可操作。我认为 Watson X 这个 IBM 产品就在这方面发挥了重要作用,Granite 模型显然也是如此。我们正在探索如何将 2023 年的科学实验转变为在今年得到更多实际应用,现在进入明年,一切都将变得更加成熟和严谨。
主持人:Kush,让我们来谈谈 AI 治理。你一直以来花了很多时间思考这个问题。今年在这方面有很多重要进展,我不知道你是否想特别指出 2024 年的一些重要事件。
Kush Varshney:仅仅是整个 AI 安全领域的大规模集会这件事就很能说明问题。IBM 举办了韩国峰会,我们在 11 月在旧金山举行了峰会。这已经成为了一个核心议题。我认为这是我们需要克服的关键问题,因为仅仅拥有生成式 AI 而没有安全护栏,没有治理机制,这是很危险的。我认为投资回报的承诺只有在你能够克服治理这个门槛后才能真正实现。
Kate Soule:总是有人说只有大型模型提供商才有预算能够研究如何安全地做这件事,或者只有他们才有这方面的专业知识。现在我认为我们终于开始足够地打破这种说法了。我们看到 Meta 做得非常出色,发布了非常大的模型,具有出色的安全对齐能力,并向外界展示你可以公开地做这件事。这不需要躲在黑幕后面进行。
主持人:我认为这个方向没有得到足够的关注。每个人总是认为 AI 就是一个能做所有事情的大模型。Kush,轮到你了,有什么被低估的趋势要向我们的读者指出吗?
Kush Varshney:我认为智能体的中间件也是一个重要方面。基于 Kate 刚才说的关于模块化的内容,即使在多智能体系统中有不同的智能体,我们也需要考虑如何注册它们,如何编排它们等等。从 IBM 研究院的角度来说,我们推出了 Bee Agent 框架。现在还有其他创业公司也在这个领域发力。一些前 IBM 研究人员创办了一个叫做 Emergence AI 的公司,他们也有自己的解决方案。外面还有其他的参与者。所以,我认为这个领域会继续增长。再次呼应 Kate 说的,我认为在开发环境和模型之间建立更紧密的联系非常重要。我认为,一旦所有模型都达到足够好的程度,那么问题就变成了:我们如何更好地使用它们?我们如何有效地使用它们?我们如何更好地开发它们?这就是我们未来该关注的问题。