财联社10月2日讯(记者付静)大模型参数规模持续增加,对AI算力基础设施提出更高要求,当下AI智算行业蓬勃发展,智算中心建设加速。最新数据显示,截直到今天年6月,全国在用算力中心机架总规模超过830万标准机架,算力规模达246 EFLOPS(FP32),智算同比增速超过65%。
现阶段供应端算卡价格和紧缺水平如何?供给端与需求端是否相匹配?全国百余个智算中心是否都满负荷运行?建设智算中心何时能回本? 人工智能 算力如何实现高质量发展?围绕五个关键问题,财联社记者采访了多位产业人士。
据财联社记者梳理,此前AI算力供给端紧缺的格局有所缓解,但供需两端不完全匹配,造成部分智算中心利用率较低。各地政府、企业的智算中心规划虽屡见不鲜,真正能落地投入使用的数量或不及预期。有从业者预计,部分智算中心三四年左右能够“回本”,这时,算力高质量发展亦受业内重视。
算卡价贴近销售商成本线
“算力供应紧张的确是这几年一个比较普遍的现象,算力能力好、生态适应性较好的产品,的确是许多人都抢着买。从使用者来讲,当然希望智算能力能够更好地支撑应用。”站在算力服务器供货商角度,浪潮云海首席科学家张东接受财联社记者采访时表示。
张东对记者说,智算供应紧张存在周期性。
供给端当下状况如何?上海六尺科技集团老总、 恒润股份 (603985.SH)子公司上海润六尺科技有限公司总经理张亚洲向财联社记者表示, “今年算力市场供应是有的,不像去年缺得很,目前各类计算卡的价钱已经贴近销售商成本线了。现在行业内各种项目参与的人多、中介也多,原来做电脑做设备的、ICT通讯行业的全部‘卷’进来,但其实真正做成、做好的不多。”
近期,A股部分跨界智算玩家透露出了压力,如:莲花控股(600186.SH)旗下莲花紫星目前已签署的部分算力服务合同,可能存在收回采购成本实际所需时间超出预期或无法收回的危险,截直到今天年8月,莲花紫星仍处于亏损状态,全年能否盈利存在不确定性; 奥雅股份 (300949.SZ)全资子公司奥创引擎与供货商润信供应链协商签署《算力服务器采购合同补充协议》,原计划采购的128台内嵌英伟达GPU芯片的高性能运算服务器数量更改为8台。
据张亚洲观望,今年6月-8月,GPU终端价格呈持续下跌态势。“去年的项目今年上半年都被消化掉了,今年在进行的项目主要有两种情况:一是企业研发真正需要算力,主要聚焦在大型互联网公司,二是一些地区拿了补助、能源指标等配套建设智算中心。”
记者了解到,9月市场才出现了一波“扫货”现象,“主要是受淡旺季和国际环境影响,但其实市场现货资源其实不多。”
记者亦从一位业内人士处获悉,“之前4090的价钱从一万三千多涨到一万六七千了”,不过据称涨价主要由于《黑神话:悟空》对该款显卡需求较强。
另外张亚洲称,市场还存在算力供给零散的现象:部分供给方“可能只有5台、10台服务器,大一些的是64台、100多台,大批量的基本很少。这种供货商可能会承接一些实验室、学校的散单需求。”
供需两端不完全匹配
几位从业者告诉财联社记者,供给紧缺缓解其实不意味着智算需求不及预期。张亚洲称,智算需求呈增长势头,且不断有新的切实需求发生,不过当下需求方已趋于理性。
深圳 人工智能 产业协会执行会长范丛明在接受财联社记者采访时谈到了不同类型需求方的现状:头部企业、科研高校算力资源充分,而当下产业垂直大模型正在大量研发,中小微企业算力紧张的情景存在。
值得注意的是,智算中心建设热火朝天,相关招投标项目逐月递增。
此前数智前线报道,据不完全统计,仅今年前7个月,围绕土建基础设施和IT基础架构等各个方面的建设内容,智算中心相关项目中标公告已发布超140个,其中至少24个项目中标金额超亿元;7月国内公布的相关中标项目超40个。
中国信息通信研究院 云计算 与 大数据 研究所总工程师郭亮在刚刚落下帷幕的“2024中国算力大会”期间接受财联社记者采访时表示,“现在全国建了很多智算中心,据不完全统计,应有200个以上,但其中有90%的算力在1000P以下,意味着这部分算力中心对大模型训练来说作用有限,今后的使用效率存疑。”
“算力需求是很大,只不过现有类型无法满足客户需求。甭管是适配方面还是性价比角度,都达不到客户的期待。”IDC中国分析师杜昀龙对财联社记者表示。
张亚洲也认为,目前存在算力供应端和需求端不完全匹配的状况,“B端需求方通常都会找自己熟悉的单位。一个项目可能有几十个人过来询价,实际上只有跟项目方合作关系良好或综合能力比较受认可才可能成交,其实不一定是以最低价成交。”
算力闲置是否普遍?
财联社记者了解到,现阶段算力设备是否满负荷运行成为市场关注的焦点。
“现在很多算力已经得到了消化,但行业内的确存在小部分算力闲置的情景,例如说市场上可能有千台机器的供应量,但可能有几百台机器在闲置。”张亚洲告诉财联社记者。
据郭亮观望,算力闲置其实不是是普遍现象,“我们团队支撑了很多省市的相关工作。近期来看,据我们了解,宁夏算力中心的利用率还是很高的。”
“现在比较普遍的是在互联网上卖内蒙古、西藏、新疆的算力,进行分时租赁,价格便宜,这就会造成建在广东等地的智算中心利用率较低。” 范丛明对记者说。
谈及宁夏智算中心,郭亮分析,当地整体电价现在虽无补助,但仍有优势;当地智算中心的算力规模较大,对于大模型训练比较有用。“另外对于智算而言,网络传输的性能要求没那么强,数据完全可以通过线下的形式进行,这对我国中西部的智算中心来说是个比较好的应用场景。”
“从前期建设的算力消化水平看,头部企业应该在80%,科研高校应该是30%-40%左右,市场化建设的算力消化水平应该在一半左右。”范丛明对记者表示。
据范丛明观望,字节、腾讯、华为、百度等头部企业“不停训练大模型,数据量越大,算力需求越大,几乎不存在算力闲置情况”;科研高校算力“建得大、用得少”,闲置相对较多;中小企业算力闲置则相对较普遍。由于定位不清、位置偏远、价格过高,前期建设的算力消化水平是不够的。
杜昀龙认为,算力是否闲置主要看几个方面:上层软件对算力的调动、硬件之间的互联方式、硬件设施与应用场景的适配、用户部署成本。
9月初,腾讯云副总裁沙开波在接受财联社记者采访时也谈到了智算中心即便具备了硬件资源,但仍缺乏配套软件能力,缺乏实际的终端客户或应用场景等现象。
张亚洲称,算力出现闲置,背后原因较为复杂,与各类智算卡的性能、项目方的运营、网络产品技术服务能力等均有关,而业内的核心关注焦点在于应用端是否有实际产出。
建智算中心几年能回本?
算力闲置造成部分智算中心成本过高,是业内普遍关注的问题之一。
对此,范丛明认为,智算中心供应价太贵,用户用不起,就造成智算中心计算的连续性不够,成本过高。
谈及智算中心运营问题,郭亮在“2024中国算力大会”期间对财联社记者表示,“近期大家在各种场合会我们时常看到算力调度平台的信息,但建了之后效果怎么样?记者了解到,有些地方花了上千万投资建了平台,因为设计理念、功能特色等诸多问题,实际上并没有很好地利用起来。目前全国还没有符合大家需求的平台出现,而这对我国智算中心的整体运营特别重要。”
他进一步表示,“对于智算而言,即便是政府投资也需要回报,更何况是企业。现在业界的确是群雄纷争的格局,但还没有统一天下的角色出现,当然我们也在努力,本次算力大会发布的中国算力服务平台(河南)就是我们推出的一个解决方案。”
(财联社记者摄于2024中国算力大会现场)
关于智算中心如何平衡成本和性能,范丛明告诉财联社记者,“算力投资回收期通常是五年左右,因为算力市场变化太快,还要加上电费、运营等其它成本。如果能找到头部大厂使用,我认为回本时间大概在三四年左右。”
杜昀龙则认为,智算中心的运营方应制定长期规划,降低最终用户的使用成本,培养使用习惯,后期恢复标价;重点培养应用案例,逐渐扩大覆盖行业。
由“量”转“质”何解?
客观来看,中国算力发展仍然任重道远。
2024中国算力大会发布的《中国算力发展报告(2024年)》显示,截至去年底,全球智算市场同比增长130%以上,而中国智算市场同比增长超过60%。
财联社记者了解到,算力建设热潮之下,有从业者在上述大会上分享了诸多“冷思考”,并将目光聚焦高质量算力。
浪潮信息 (000977.SZ)联合信通院发布的业界首个高质量算力评估体系《 人工智能 算力高质量发展评估体系报告》表示,高质量算力是基于最新 人工智能 理论,采用先进 人工智能 的计算架构,与算法、数据深度结合的高水平计算能力。
财联社记者从 浪潮信息 方面获悉,当前算力集群实测性能和理论性能差距过大问题明显,部分算力实际性能不足理论性能的10%。公开数据显示,传统模式下的智算中心GPU利用率平均数值低于30%。
张东认为,对于算力的关注不能仅仅关注芯片,“很多地方买算力,点名芯片的品牌,构建一个多大规模的算力中心,实际上看芯片指标没有啥意义,大家还是要从系统角度,综合考虑最后怎样满足应用需要。”
郭亮也表示,“目前,我们在芯片这一层选择不多。但计算和网络融合方面是一个热点。目标是把一台AI服务器,从如今的8卡扩展到32卡、512卡,这对智算集群的能力,包含集群的部署、上线、运维都有益处。”
财联社记者多方采访获悉,大规模智算落地绝非容易的规模数量堆叠,其复杂水平呈指数级增加,对智算建设运营者的技术实力、资源优势、产业协同能力有着很高的要求。
至于智算中心如何由“量”转“质”,郭亮称,“建设智算中心需要‘适度超前’,结合当地实际需求做整体的分析和预判。”