安大互联
财经热点 > 财经资讯 > 更高效的Scaling技术 - MoE架构为何获得大模型厂商青睐? - GAI进化论
【数字经济】更高效的Scaling技术 - MoE架构为何获得大模型厂商青睐? - GAI进化论
浏览次数:【270】  发布日期:2024-5-29 18:09:38    文章分类:财经资讯   
专题:数字经济】 【人工智能】 【MoE】 【Scaling
 


K图 000977_0

  2023年,大模型狂奔一年后,很快就遇到了瓶颈。Scaling law(指随着参数量的增加,模型性能也将提高)的存在,让大模型的能力似乎没有了上限,可是,用于训练大模型的数据和算力却十分有限。

  DeepMind在题为“Training Compute-Optimal Large Language Models”的论文中深入地探究了Scaling问题,最终得出结果:对模型进行其本身参数量20倍token数量的练习才较为充分。

  目前,已知闭源模型中训练token数最多的是GPT4,约为20T;开源模型中训练token数最多的是LLaMA3,为15T。照此计算,如果一个5000亿参数的Dense模型要达到相同的练习效果,则需要训练token数为107T,而这,已远超当前业界拥有的数据量。

  不过,对于数据问题,业界已经找到了一条解决路径——使用合成数据。有预测数据显示,到2030年, 人工智能 使用的合成数据将超过真实数据,这将大大缓解数据短缺的问题。

  然而,即便有了足够多的练习数据,算力挑战仍然严峻。有测算数据显示,训练一个5000亿参数规模的Dense模型,基础算力设施投入约为10亿美元,若无故障运行21个月,电费约为5.3亿元人民币。这样的算力投入,现阶段也只有极少数企业能够承担。

  在此背景,业界也不得不去探索效率更高的模型架构,而MoE(Mixture of Experts,混合专家模型)架构的出现,让业界看到了希望。

  更顶尖的模型架构

  今年,已经有多个大模型厂商完成架构升级,并发布了基于MoE架构的大模型,从测试数据来看,新架构下的大模型性能有了明显提升。5月28日, 浪潮信息 也发布了“源2.0-M32” 开源大模型,这是包含了32个专家(Experts)的MoE大语言模型。

   浪潮信息 人工智能 首席科学家吴韶华向21世纪经济报道记者表示,源2.0-M32凭借特别优化设计的模型架构,在仅激活37亿参数的情景下,获得了和700亿参数LLaMA3十分的性能水平,而所消耗算力仅为LLaMA3的1/19。

  MoE架构本质是一种更高效的Scaling技术,它能通过多个专家模型来处理输入数据的不同任务。

  简单而言,MoE架构的核心逻辑就是将输入数据划分给最适合处理该数据的专家。而且这种架构允许模型通过增加专家的数量来扩展,从而提高了模型处理特定任务的能力。

  吴韶华表示,门控功能“稀疏性”的引入让MoE在处理输入数据时只激活使用少数专家模型,大部分专家模型处于未激活状态。换言之,只有擅长某一特定领域的模型会被派遣,为用户提供最精湛的服务,而其它模型则原地待命,静待自己擅长的领域到来。

  这种“稀疏状态”是混合专家模型的重要优势,也进一步提高了模型训练和推理过程的效率。除此之外,MoE模型的另外一个明显优势是,它们能够在远少于稠密模型所需的计算资源下进行有效的预训练。

  “这意味着在相同的计算预算条件下,可以明显扩大模型或数据集的规模。尤其是在预训练阶段,与稠密模型相比,混合专家模型通常能够更快地达到相同的质量水平。”吴韶华说。

   中信证券 在一份研报中指出,随着大模型体量增长,多模态能力和推理效率成为业界竞争新焦点。Dense架构在处理图像、视频等非结构化数据时效率较低,预计未来1-2年MoE等新型架构将成为主流。

  要性能,更要效率

  在采访进程中,吴韶华反复强调“模算效率”。他表示, 浪潮信息 在大模型的探索进程中,一直都在追求更高效的智能涌现。

  其以2021年发布的源1.0大模型为例称,当时源1.0的练习算力效率就达到了44.8%,而GPT-3大模型在其V100 GPU集群上的练习算力效率仅为21.3%。

  因此这次发布“源2.0-M32”大模型, 浪潮信息 也是希望在有限的算力和训练Token资源条件下,寻找到一条更可行的路径,从而实现能耗更低、推理和训练效果更优的大模型开发。

  需要强调的是,在MoE架构的条件上, 浪潮信息 在算法层面也做了进一步创新,好比其采用了一种新型算法结构——基于注意力机制的门控网络(Attention Router)。

  吴韶华称,当前流行的MoE结构大都采用容易的调度策略,其本质是将token与代表每个专家的特征向量进行点积,随后挑选点积结果最大的专家,这种情景忽略了专家之间的相关性。

  而 浪潮信息 提出的新算法结构,会关注专家模型之间的协同性度量,在计算进程中可以将输入样本中任意两个token通过一个计算步骤直接联系起来,解决了以往的门控机制中,选择两个或多个专家参与计算时关联性缺失的问题,从而使得专家之间协同处理数据的水平大为提升。

  基于这些创新,源2.0-M32的性能在MATH(数学竞赛)、ARC-C(科学推理)等榜单上超越了拥有700亿参数的LLaMA3大模型。而在相同智能水平下,源2.0-M32又明显降低了模型训练、微调和推理所需的算力开销。

  据吴韶华透露,在模型推理运行阶段,源2.0-M32处理每token所需算力为7.4GFLOPs,而LLaMA3-70B所需算力为140GFLOPs。在模型微调训练阶段,对1万条平均长度为1024 token的样本进行全量微调,源2.0-M32消耗算力约0.0026PD(PetaFLOPs/s-day),而LLaMA3消耗算力约为0.05PD。

  其实,在大模型落地的起步阶段,市场期望的不只是模型能力,更需要性价比。吴韶华也表示,“在保证模型智能高水平的条件上,有效降低模型落地的算力门槛,才能加速智能技术在千行百业的普及和应用。”

手机扫码浏览该文章
 ● 相关资讯推荐
2024-7-3【Meta】美股三大指数集体收涨 - 热门科技股多数上涨 - 特斯拉大涨
2024-7-3【人工智能】我国人工智能产业将参与制定超20项国际标准
2024-7-2【数字经济】全球数字经济-朋友圈-扩至27个
2024-7-2【数字经济】数字经济,重要信息
2024-7-2【英伟达】黄仁勋最新访谈 - 如果未来30天不全力以赴 英伟达确实可能破产
2024-7-2【大模型】微众银行 - 积极探索AI前沿技术应用于金融领域的多样化可能性
2024-7-2【人工智能】-西街观察-人工智能专业不是多多益善
2024-7-2【网络安全】齐向东 - 人工智能可以驱动网络安全实现质效双提升
2024-7-2【英伟达】-我们距离倒闭只有30天- 英伟达CEO黄仁勋再谈紧迫感
2024-7-2【英伟达】黄仁勋最新访谈 - 如果未来30天不全力以赴 英伟达确实可能破产
 ● 相关资讯专题
Meta】  【人工智能】  【特斯拉】  【英伟达】  【科技股】  【美股三大指数】  【综合标准化】  【2024】  【数字经济】  【朋友圈】  【黄仁勋】  【GPU】  【全力以赴】  【大模型】  【微众银行】  【金融服务】  【多多益善】  【网络安全】  【齐向东】  【网络攻击】  【我们距离倒闭只有30天】  【CEO】  【紧迫感】 
  • 网络建设业务咨询

   TEl:13626712526