但是,MoE(尤其是大规模 MoE)也会给 AI 基础设施带来不一样的挑战。昨天,在 AI 势能大会下午的 AI 基础设施峰会上,阿里云智能集团副总裁、阿里云智能计算平台事业部负责人汪军华就谈到了 MoE 架构特有的一些困难,包括 token drop 选择对吞吐的影响、在路由专家与共享专家之间考虑效率和效果的权衡、专家的选取数量和比例等。
在强大算力的基础上,阿里云还在对灵骏集群不断进行优化。阿里云智能集团副总裁、阿里云智能弹性计算、存储产品线负责人吴结生表示:「我们针对 AI 负载进行了大量优化,把灵骏集群构造成了云超级计算机。」总结起来,灵骏集群的技术体系包含 4 个创新点,包括 HPN 高性能网络、CPFS 高性能文件存储、定制化的 AI 服务器以及强大的故障检测能力。
有了高效算力和平台,要创造足够好的 AI 应用,数据也是必不可少的一环。正如阿里云智能集团副总裁、阿里云智能数据库产品事业部负责人李飞飞说的那样:数据、算法、算力是智能时代的三大要素。因此,对数据库范式的革新也必不可少。那么智能时代对数据库的最核心需求是什么呢?李飞飞认为是「对多模态数据的智能化管理」。
为此,阿里云正在不断创新。此次峰会上,阿里云重点介绍了其数据库产品的一系列重磅升级。
首先,阿里云宣布实现了模型即算子(Model as an Operator)的 In-DB AI 功能,也就是说可以将模型作为算子直接内嵌到数据库中。这样做具有明显的好处,包括能使用更低的推理成本获得同等的 AI 能力、可以通过 SQL 语句轻松调用、可避免企业私有数据出域。李飞飞表示,阿里云会在今年内让 PolarDB、Lindorm 和 AnalyticDB 都支持 In-DB AI。
阿里云在数据库方面的另一大重要举措是采用了 Data+AI 的设计理念。具体来说,通过统一 CPU 和 GPU 资源池,瑶池数据库实现了资源池化,支持分时分片弹性调度,进而帮助客户降本增效。
此外,阿里云还宣布将 Tair 从互联网架构演进成了面向 AI 时代的架构:通过基于 Tair 内存池的 KV Cache 多级管理,可为大模型推理提供高效的 KV Cache 存储和复用。同时,Tair KVCache还支持多租隔离、资源配额、故障恢复等企业级管理能力。