商业洞察
【张建中】聚焦WAIC - AI大模型时代 算力集群赛跑
【查看信息来源】 7-7 20:23:48AI大潮下,今年的世界 人工智能 大会格外受到关注。大模型、人形 机器人 群雄并起的同时,算力产业也在迭代升级。
会上,昇腾、摩尔线程、壁仞科技、燧原、天数智芯、浪潮、新华三等算力厂商悉数到场。从各家展台看,相比于单体硬件,目前厂商更聚焦集群的一体化方案和实际运营效率。
整体而言,国产算力正在崛起。摩尔线程开创人兼总裁张建中接受21世纪经济报道记者采访时谈道:“几年前对于顾客而言,国产只是备份,现在很多国产已经成为首选了,因为要保证长期供应、本地服务。”
最近,摩尔线程宣布其AI旗舰产品夸娥(KUAE)智算集群解决方案实现升级,从当前的千卡级别大幅扩展至万卡规模。当然,摩尔线程作为GPU草创公司,也直面英伟达等巨头的竞争。
谈及竞争的挑战,张建中表示:“难点主要是在市场的推广、用户的生态适配和生态发展,肯定需要一个过程。”而能不能建好生态,需要上下游生态产业链一起合力发展,包含算力的供货商、建设方、软件服务...。
万卡标配
张建中认为,当前正处在生成式 人工智能 的黄金时代,GPU成为加速新技术浪潮来临的创新引擎。
自大模型问世出圈以来,GPU的切实需求量就进一步加大。好比,OpenAI的ChatGPT-4共有1.8万亿参数,一次训练需要在大约25000个A100上训练90到100天。
当前,基础大模型的混战还在持续,各家继续订购算力资源。同时从趋势看,大模型对算力提出更高要求。好比Scaling Law将持续奏效,需要单点规模够大且通用的算力才能快速跟上技术演进;Transformer架构之外,Mamba、RWKV和RetNet等新兴架构,同样需要更高性能计算资源。
因此,在摩尔线程看来,AI模型训练的主战场,万卡已是标配。随着计算量不断攀升,大模型训练亟需超级工厂,即一个“大且通用”的加速计算平台,以缩短训练时间,实现模型能力的快速迭代。
而科技巨头都在通过积极部署千卡甚至超万卡规模的计算集群,以确保大模型产品的竞争力。随着模型参数量从千亿迈向万亿,模型能力更加泛化,大模型对底层算力的诉求进一步升级,万卡甚至超万卡集群成为这一轮大模型竞赛的入场券。
然而,构建万卡集群其实不是一万张GPU卡的简单堆叠,而是一项高度复杂的超级系统工程项目。它涉及超大规模的组网互联、高效率的集群计算、长期稳定性和高可用性等许多技术难题。
据介绍,摩尔线程夸娥(KUAE)万卡智算集群,以全功能GPU为底座,旨在建设能够承载万卡规模、具备万P级浮点运算能力的国产通用加速计算平台,专为万亿参数级别的复杂大模型训练而设计。
张建中表示:“现在夸娥千卡集群MFU(算力利用率)有50%多,目标是做到60%,做万卡集群的时候,会有许多技术手段去提升MFU,包含软件、硬件很多方面,目标是达到业内较好水平。”
目前,摩尔线程已经联合 中国移动 通信集团青海有限公司、 中国联通 青海公司、北京德道信科集团、中国能源建设股份有限公司总承包公司、桂林华崛 大数据 科技有限公司分别就三个万卡集群项目进行了战略签约。
算力竞赛
近十年来,全球的算力市场经历了不小的变化。一方面, 云计算 、AI需求驱动下,算力市场规模不断攀升;另一方面, 数据中心 的类型也从通用计算,拓展至更重视AI能力的智能计算,或说加速计算。
IDC中国研究经理索引此前接受21世纪经济报道采访时谈道,我国的算力市场正在由高速增上进入到高质量增长的阶段。过去十几年,中国全面进入数字化经济这个新的阶段,对算力发生了大量的切实需求。
尤其是近两年生成式AI,为算力产业造成了新需求。在新的 数据中心 建设进程中,智算 数据中心 雨后春笋,GPU则是底层的计算核心。
随着各地智算中心的增长,业内关注两方面课题,其一是投资回报率,其二是需求是否会过剩。
谈及投资和产出,张建中说道:“目前智算中心投资回报率是5年左右,根据市场的租金、使用率和用户愿意付的价钱,这是正常的(周期),而且资本愿意去看5年回报周期。对于我们研发一颗芯片而言,研发费用(成本)相对美国公司来说更低,大概相当于他们的1/10,我们在国内可以得到更好的回报。”
另一方面,对于智算中心的火热建设,张建中提到了两个建议,首先是不应盲目建设,“不会说连市场客户都没有就盲目建设,不是所有人都应该去建算力中心,而是应该由精湛的人干精湛的事。”
其次建集群也有潜在风险,“建完之后咋样用、是不是能够通用、是不是能稳定运行、有没有能耐去运营,都是需要研究的事情。因此我们给用户提供建议的时候,希望使用我们的一揽子的解决方案,采用整体解决方案可以防止风险。”张建中谈道。
有产业链人士向记者指出,去年很多客户的业务重心都放在AI训练上,但今年一些头部互联网和大模型公司面临的主要挑战是落地应用。这也意味着,除了训练之外,各个行业的推理的切实需求也将快速增长。
眼下,算力市场正在经历变革。未来,随着生成式AI和智能计算的不断发展,算力需求将持续增加。从硬件、软件、集群、到智算中心,合理规划和体系化建设也将愈发重要。