【数字经济】更高效的Scaling技术 - MoE架构为何获得大模型厂商青睐？ - GAI进化论

栏目导航

财经热点 > 财经资讯 > 更高效的Scaling技术 - MoE架构为何获得大模型厂商青睐？ - GAI进化论

【数字经济】更高效的Scaling技术 - MoE架构为何获得大模型厂商青睐？ - GAI进化论

浏览次数：【270】发布日期:2024-5-29 18:09:38 文章分类：财经资讯

K图 000977_0

　　2023年，大模型狂奔一年后，很快就遇到了瓶颈。Scaling law（指随着参数量的增加，模型性能也将提高）的存在，让大模型的能力似乎没有了上限，可是，用于训练大模型的数据和算力却十分有限。

　　DeepMind在题为“Training Compute-Optimal Large Language Models”的论文中深入地探究了Scaling问题，最终得出结果：对模型进行其本身参数量20倍token数量的练习才较为充分。

　　目前，已知闭源模型中训练token数最多的是GPT4，约为20T；开源模型中训练token数最多的是LLaMA3，为15T。照此计算，如果一个5000亿参数的Dense模型要达到相同的练习效果，则需要训练token数为107T，而这，已远超当前业界拥有的数据量。

　　不过，对于数据问题，业界已经找到了一条解决路径——使用合成数据。有预测数据显示，到2030年，人工智能使用的合成数据将超过真实数据，这将大大缓解数据短缺的问题。

　　然而，即便有了足够多的练习数据，算力挑战仍然严峻。有测算数据显示，训练一个5000亿参数规模的Dense模型，基础算力设施投入约为10亿美元，若无故障运行21个月，电费约为5.3亿元人民币。这样的算力投入，现阶段也只有极少数企业能够承担。

　　在此背景，业界也不得不去探索效率更高的模型架构，而MoE（Mixture of Experts，混合专家模型）架构的出现，让业界看到了希望。

　　更顶尖的模型架构

　　今年，已经有多个大模型厂商完成架构升级，并发布了基于MoE架构的大模型，从测试数据来看，新架构下的大模型性能有了明显提升。5月28日，浪潮信息也发布了“源2.0-M32” 开源大模型，这是包含了32个专家（Experts）的MoE大语言模型。

　　浪潮信息人工智能首席科学家吴韶华向21世纪经济报道记者表示，源2.0-M32凭借特别优化设计的模型架构，在仅激活37亿参数的情景下，获得了和700亿参数LLaMA3十分的性能水平，而所消耗算力仅为LLaMA3的1/19。

　　MoE架构本质是一种更高效的Scaling技术，它能通过多个专家模型来处理输入数据的不同任务。

　　简单而言，MoE架构的核心逻辑就是将输入数据划分给最适合处理该数据的专家。而且这种架构允许模型通过增加专家的数量来扩展，从而提高了模型处理特定任务的能力。

　　吴韶华表示，门控功能“稀疏性”的引入让MoE在处理输入数据时只激活使用少数专家模型，大部分专家模型处于未激活状态。换言之，只有擅长某一特定领域的模型会被派遣，为用户提供最精湛的服务，而其它模型则原地待命，静待自己擅长的领域到来。

　　这种“稀疏状态”是混合专家模型的重要优势，也进一步提高了模型训练和推理过程的效率。除此之外，MoE模型的另外一个明显优势是，它们能够在远少于稠密模型所需的计算资源下进行有效的预训练。

　　“这意味着在相同的计算预算条件下，可以明显扩大模型或数据集的规模。尤其是在预训练阶段，与稠密模型相比，混合专家模型通常能够更快地达到相同的质量水平。”吴韶华说。

　　中信证券在一份研报中指出，随着大模型体量增长，多模态能力和推理效率成为业界竞争新焦点。Dense架构在处理图像、视频等非结构化数据时效率较低，预计未来1-2年MoE等新型架构将成为主流。

　　要性能，更要效率

　　在采访进程中，吴韶华反复强调“模算效率”。他表示，浪潮信息在大模型的探索进程中，一直都在追求更高效的智能涌现。

　　其以2021年发布的源1.0大模型为例称，当时源1.0的练习算力效率就达到了44.8%，而GPT-3大模型在其V100 GPU集群上的练习算力效率仅为21.3%。

　　因此这次发布“源2.0-M32”大模型，浪潮信息也是希望在有限的算力和训练Token资源条件下，寻找到一条更可行的路径，从而实现能耗更低、推理和训练效果更优的大模型开发。

　　需要强调的是，在MoE架构的条件上，浪潮信息在算法层面也做了进一步创新，好比其采用了一种新型算法结构——基于注意力机制的门控网络（Attention Router）。

　　吴韶华称，当前流行的MoE结构大都采用容易的调度策略，其本质是将token与代表每个专家的特征向量进行点积，随后挑选点积结果最大的专家，这种情景忽略了专家之间的相关性。

　　而浪潮信息提出的新算法结构，会关注专家模型之间的协同性度量，在计算进程中可以将输入样本中任意两个token通过一个计算步骤直接联系起来，解决了以往的门控机制中，选择两个或多个专家参与计算时关联性缺失的问题，从而使得专家之间协同处理数据的水平大为提升。

　　基于这些创新，源2.0-M32的性能在MATH（数学竞赛）、ARC-C（科学推理）等榜单上超越了拥有700亿参数的LLaMA3大模型。而在相同智能水平下，源2.0-M32又明显降低了模型训练、微调和推理所需的算力开销。

　　据吴韶华透露，在模型推理运行阶段，源2.0-M32处理每token所需算力为7.4GFLOPs，而LLaMA3-70B所需算力为140GFLOPs。在模型微调训练阶段，对1万条平均长度为1024 token的样本进行全量微调，源2.0-M32消耗算力约0.0026PD(PetaFLOPs/s-day)，而LLaMA3消耗算力约为0.05PD。

　　其实，在大模型落地的起步阶段，市场期望的不只是模型能力，更需要性价比。吴韶华也表示，“在保证模型智能高水平的条件上，有效降低模型落地的算力门槛，才能加速智能技术在千行百业的普及和应用。”

手机扫码浏览该文章

2024-7-3【人工智能】我国人工智能产业将参与制定超20项国际标准

2024-7-2【数字经济】全球数字经济-朋友圈-扩至27个

2024-7-2【数字经济】数字经济，重要信息

2024-7-2【大模型】微众银行 - 积极探索AI前沿技术应用于金融领域的多样化可能性

2024-7-2【人工智能】-西街观察-人工智能专业不是多多益善

2024-7-2【网络安全】齐向东 - 人工智能可以驱动网络安全实现质效双提升

2024-7-2【英伟达】-我们距离倒闭只有30天- 英伟达CEO黄仁勋再谈紧迫感

● 相关资讯专题