安大互联
财经热点 > 财经资讯 > 浪潮信息董事长彭震 - 加速智算系统创新解决大模型算力难题
【人工智能】浪潮信息董事长彭震 - 加速智算系统创新解决大模型算力难题
浏览次数:【686】  发布日期:2023-11-7 22:41:06    文章分类:财经资讯   
专题:人工智能】 【英伟达
 

K图 000977_0

  在生成式 人工智能 蓬勃发展的背后,算力尤其是AI算力已经成为驱动大模型进化的核心引擎。计算力就是生产力,智算力就是创新力,已经成为产业共识。“大模型时代的算力供给,与 云计算 时代的算力供给,存在很大的不同性。” 浪潮信息 老总彭震说。

  彭震认为,目前大模型研发已经进入万卡时代,从事大模型研发的企业和团队,普遍面临“买不起、建不了、算不好”的困局。为解决这一困局,需要以算力基建化改善算力供给,增进算力普惠,以算力工程化指导完善算力系统最佳实践,提升算力效率。

  大模型,尤其是千亿参数级别对海量算力资源的消耗,往往需要少则几亿,多则数十亿的IT基础设施投资,急剧抬高了技术和资金准入门槛。彭震表示,为解决这一困境,应大力发展普适普惠的智算中心,通过算力基建化使得智算力成为城市的公共基础资源,供用户按需使用,施展公共基础设施的普惠价值。用户可以选择自建算力集群,或是采用智算中心提供的算力服务来完成大模型的开发。

  通过大力发展智算中心新基建,中国和美国大模型产业的发展已经显现出完全不一样的发展路径。在美国,算力的私有化决定了大模型产业技术只能掌握在少数企业手中,而中国大力推动的算力供给基建化,为大模型创新发展提供了一片沃土,将使得整个产业显现“百模争秀”的全新格局。

  “即便解决了算力供应的问题,通用大模型开发仍然是一项极其复杂的系统工程,如同F1赛车的调校一样。F1赛车的性能特别高,但如何调校好这部赛车,对整个车队的能力要求是特别高的。”彭震说。

  大模型训练需要依靠规模庞大的AI算力系统,在较长时间内完成海量的计算任务,化解大模型“建不了”难题,根源在于提升算力效率。算力效率越高,大模型的练习耗时越少,就能赢得更多时间窗口,也能降低成本。目前,大模型的练习集群效率普遍较低,像GPT3的集群训练效率只有23%,相当于有超过四分之三的算力资源被浪费了。

  彭震表示,大模型不应是简单粗鲁的“暴力计算”,算力系统构建也不是算力的简单堆积,而是一项复杂的系统工程,需要从多个方面进行系统化的设计架构。

  一是要处理如何实现算力的高效率,它涉及全面的底层驱动、系统层优化,与大模型相适配的优化;

  二是要处理算力系统如何保持线性可扩展,在单机上获得较高算力效率之后,还需要能让几百个服务器节点、几千块卡的大规模集群环境的算力系统运行效率,保持相对线性的性能扩展比;

  三是算力系统长效稳定训练问题,大模型的练习周期长达数周甚至数月,普遍存在硬件故障造成训练中断、梯度爆炸等小规模训练不会遇到的问题,工程实践方面的缺乏造成企业难以在模型质量上实现快速提升。

  彭震介绍,系统建成后,大模型在训练进程中,由于开发链条冗长,还面临“算不好”的挑战。大模型训练不仅依赖高质量数据,同时也要处理算法收敛、断点续训、参数优化、模型微调等诸多问题,数据质量、代码调优、执行效率等关乎训练质量的因素非常重要。这些问题解决不好,很难发生一个可商用的、高质量的大模型产品。

  彭震认为,解决“算不好”难题,根本上要保障大模型训练的长时、高效、稳定训练的问题。例如大模型训练过程的失效故障,大模型训练会因此中断,不得不从最新的检查点重新载入以继续训练,这个问题在现今是不可避免的。提高算力全面的可连续性,不仅需要更多机制上的设计,更依赖于大量自动化、智能化的模型工具支撑。例如智算软件栈OGAI,提供完善的工程化、自动化工具软件堆栈,帮助更多企业顺畅跨越大模型研发应用门槛,充分释放大模型创新生产力。

  只有依赖不断的创新,通过政策驱动、应用导向、产业构建等多重手段相结合,不断夯实大模型基础能力和原始创新能力,才能切实有效的处理好大模型算力“买不起、建不了、算不好”的困扰。

手机扫码浏览该文章
 ● 相关资讯推荐
2024-9-19【人工智能】中国式体检20年 - 从例行公事到真的救命
2024-9-19【iPhone】美股成交额前20 - 微软参与成立全球最大AI投资基金
2024-9-18【字节跳动】与台积电合作AI芯片?字节跳动回应来了
2024-9-17【数据中心】铜价长期将飙升?必和必拓 - AI浪潮将加剧铜短缺
2024-9-15【反垄断】微软、英伟达等频陷反垄断调查,AI领域为何引发竞争担忧?
2024-9-14【新能源】携手清华解决可持续挑战 - 远景的又一次零碳试验
2024-9-15【人工智能】服贸会观察 - 大模型遇数据瓶颈、算力不足,电信运营商如何应对
2024-9-14【大模型】智谱AI狂奔!视频通话功能-首秀-,国产大模型解锁新能力 - 聚焦服贸会
2024-9-14【人工智能】人工智能板块,迎利好!
2024-9-14【人工智能】国家网信办 - 任何组织和个人不得恶意删除、篡改、伪造、隐匿人工智能生成合成内容标识
 ● 相关资讯专题
人工智能】  【张黎刚】  【例行公事】  【iPhone】  【亚马逊】  【英伟达】  【成交额】  【投资基金】  【字节跳动】  【AI芯片】  【台积电】  【数据中心】  【云计算】  【必和必拓】  【反垄断】  【新能源】  【可持续】  【中国移动】  【中国电信】  【电信运营商】  【大模型】  【李飞飞】  【利雅得】 
  • 网络建设业务咨询

   TEl:13626712526