商业洞察

【林达华】AI大模型前瞻 - 多模态融合、上下文、云端协同成趋势 - 直击2024GDC

查看信息来源】   3-24 11:21:45  
林达华】【大模型】【上下文

  《科创板日报》3月24日讯(记者黄心怡)在今日举行的“2024全球开发者先锋大会”大模型前沿论坛上,上海 人工智能 实验室领军科学家林达华汇总了过去一年大模型的发展,并对未来趋势进行了前瞻分析。

  他表示,GPT-4已经发布一周年,过去一年的成果超越了过去十年的积累。目前,上下文、推理能力、更高效的模型架构是技术探索的关键方向,轻量级模型崭露头角,开源模型快速发展。

  林达华介绍,大模型时代,技术演进有两股主要的驱动力量:一是对AGI(通用 人工智能 )的追求,对标准定律(Scaling Law)的信仰;二是对大模型造成新一次产业变革的向往。

  在模型架构方面,业界从追求参数到追求更高效的规模。林达华以人脑为例,人脑的效率远高于主流大模型的架构,人脑包含60-100万亿个神经元突触连接,其运行功率仅20瓦,而千亿参数模型的推理功率是它的百倍以上,处理的信息更单一。

  其中,MoE(Mixture of Experts)值得关注,经过良好训练的MoE可取得比同等激活参数量的稠密模型更好的性能。业界也在探索Mamba模型等,以低复杂度的注意力架构更高效地处理上下文。

  在训练数据方面,从追求数量到寻求规模化构建高质量数据的路径。他表示,训练数据包含三要素:规模、质量、多样性。在规模方面,早在ChatGPT之前,DeepMind等研究报告已指出训练数据要和模型参数同步增长。

  数据质量在大模型训练中饰演越来越重要的角色,训练数据的质量对模型水平影响很大,低质量数据对模型可能发生破坏性影响。增强数据的知识密度,能造成更高的练习效率。另外,好的数据集是非常多样化的,均衡分布在充分大的语义空间中。而互联网语料数据的分布极不均匀,存在大量低水平重复的语言模式,可能造成模型能力的塌缩,正确的resampling(重采样)策略能大幅度降低其不良影响。

  多模态融合将成为重要趋势,相关技术探索仍在路上。另一趋势则是自2023年下半年开始,上下文长度快速增长,显现数量级增长。

  在Kimi宣布升级至 200万上下文无损输入后,阿里通义千问宣布向所有人免费开放1000万字的长文档处理功能,而360智脑正式内测500万字长文本处理功能,即将入驻360AI浏览器。

  林达华认为,上下文支持能力的提升,意味着更广阔的应用可能性。好比2K长度的上下文主要用于日常聊天、知识问答、短文理解。32K可以支持拟人对话、长文分析、代码解释和缩写。100K可支持长报告/短篇小说、智能体长时间交互,和容易的软件和网站构建。如果达到百万量级,则能支持长篇小说、直接注入小型知识库等。

  智能体也成为业界关注的方向,林达华认为这是大模型应用的重要形态,但需要核心基础能力的支撑。

  林达华还预计,云端在指数级成长的同时,端侧即将迎来黄金增长期。当下,国内头部安卓手机厂商均已入局AI手机,联想、荣耀等终端厂商还发布了首款AI PC。

  林达华相信,云端协同将成为将来的重要趋势,由云侧计算建立天花板,端侧计算将支撑用户使用大规模放量。

  从国内大模型的发展来看,GPT-4仍然保持领先。国内前列的模型在主客观变现上都超过了GPT-3.5,商用闭源的大模型表现比开源模型更好,可是开源模型进步非常快。

  不过,他也强调,要审慎地看待大模型榜单。因为任何榜单都有特定的偏重,而且任何排名都是短暂的,根据评测找四处理问题的路径,对于AI发展有更长的生命力。

  国内大模型与GPT-4的真正差距在于推理能力。林达华称,尤其是随着推理难度的提升,GPT-4和其它模型,重量级模型和轻量级模型逐渐拉开差距。相比常识推理、演绎推理,归纳推理是差距最大的类型。

  林达华最后表示,大模型时代,AI产业分工将会被重塑,最强的大模型公司也不会垄断一切,在特定领域的数据优势,可以让一个模型在局部形成对GPT-4的超越。

繁体中文