安大互联
财经热点 > 财经资讯 > 大模型如何-卷-才能制胜?对话面壁智能首席科学家刘知远
【大模型】大模型如何-卷-才能制胜?对话面壁智能首席科学家刘知远
浏览次数:【886】  发布日期:2024-7-7 18:52:15    文章分类:财经资讯   
专题:大模型】 【刘知远】 【人工智能】 【科学家
 

  大模型越大越好么?商业化落地,究竟是做B端容易还是C端?大模型在哪些领域的落地速度更快?当各家都在“卷”大模型时,从中突围的法宝是啥?

  7月5日,清华大学计算机系长聘副教授,面壁智能联合开创人、首席科学家刘知远现身上海,在WAIC2024的一场分论坛作了主题分享。会后,围绕大模型领域的热点话题,南都记者对话了刘知远。 图片

  刘知远在WAIC2024“模型即服务(Mass) 加速大模型应用落地”论坛上演讲。(图据论坛主办方)

  他认为,OpenAI推出的ChatGPT拉开了通用 人工智能 的序幕,其影响力堪比2000年左右兴起的互联网。未来五年到十年间,大模型及通用 人工智能 技术将给整个产业和人类社会造成无限想象空间。“我们应该把大模型看得更‘大’一点。它不只是具体的应用,而是一波类似于互联网、芯片级别的浪潮。”

  刘知远告诉南都记者,当前大模型技术还在快速迭代中。技术较量的阶段可能持续两到三年甚至更长时间,再往后还会夹杂商业模式、产品运营设计等多方面的比拼,为此也有必要探索属于AGI和大模型的商业模式,才能支撑其向前发展。

模型越大越好么?更重要的比拼是知识密度

  从ChatGPT到Sora,频繁打出“王炸”的OpenAI验证了规模法则(Scaling Law,也称标准定律),即随着模型规模的增加,其性能也会相应提高。可是,在这一法则驱策下,持续无限制地把模型越训越大,就一定好么?

  7月5日,在2024年世界 人工智能 大会(WAIC 2024)的一场加速大模型应用落地的分论坛上,刘知远提出了不同观点。他认为相比而言,大模型的知识密度、制程才是更为重要的本质。

  何为知识密度?刘知远举例说道,同样测试100道题,有人需要吃十顿饭才有力气做完,有人只需一碗饭即可高效完成,很显然后者的知识密度更高。他还用了一个公式总结,知识密度=模型能力/推理算力消耗。简单而言,一个知识密度越高的模型意味着它的能力越强,每一次计算所期望的参数规模越小。

  为找到更高知识密度、更高效的模型,面壁智能选择“卷”端侧大模型。但怎样在端侧算力、内存、能耗有限的条件下,把知识浓缩到更小的参数规模里,是刘知远遇到的一个更大挑战。对此,训练大模型前,他选择先在“模型沙盒”中进行成千上百次的演练,然后将寻找到的最优数据和超参配置,外推至大模型。

  据刘知远介绍,过去80多年,人们见证了芯片制程不断增强,造成终端算力的持续提升。大模型时代也将拥有自己的“摩尔定律”——根据他们的观望,模型知识密度显现出每8个月提升一倍的规律。要让这一规律持续下去,则需要在数据、模型框架和算法方面,不断探索科学化的要领,从而提升模型制程。 图片

  刘知远认为大模型时代也有自己的“摩尔定律”。图据论坛主办方。

  刘知远表示,大模型数据驱动的技术方向大致已经确定,可是模型的架构、算法、数据相关的技术方案仍然在高速迭代。接着,更关键的是持续改进模型制程、持续高速迭代相关技术方案。“模型制程的提升,会造成模型知识密度的持续增强,二者交汇将会揭示端侧智能的巨大潜力。”

  据面壁智能介绍,相比OpenAI于2020年发布的1750亿参数的GPT-3,2024年初,面壁发布具备GPT-3同等性能但参数仅为24亿的MiniCPM-2.4B ,把知识密度提高了大概86倍。今年WAIC大会上,面壁智能还正式官宣,开源业内首个端侧大模型工具集“MobileCPM”,帮助开发者一键集成大模型到APP。

  刘知远认为,将来的大模型是端云协同的模式。出于隐私保护、算力等考虑,把模型放在离用户更近的地方,具有重要的价值和意义。据他透露,面壁智能将在半年或一年内把GPT3.5水平的模型能力放到端侧运行,争取未来两年内在端侧实现GPT4.0能力。

大模型市场机遇在B端还是C端?得先有过硬的技术

  自2022年底ChatGPT横空出世后,国内外掀起了一波大模型热潮,各家不甘落伍布局这一赛道。百模大战一年多后,国产大模型追赶到了啥水平?

  刘知远表示,从全球范围看,OpenAI推出的大模型仍处于世界一级水平,但中国大模型展现出了超强的追赶能力。大概在去年下半年,很多国内一线大模型公司完成了GPT3.5的建设,现在则达到了接近GPT4.0的水平。

  “单看已发布的模型能力,基本上会认为中美大模型存在一年左右的代差。”但刘知远强调,更应该关注的是国外尚未公布的模型——好比美国一些科技公司完全具有持续不断推出模型的能力,而国内的大模型公司基本上还是带着目标在追赶,整体大的创新性仍不足。

  大模型价值在于落地应用,但其市场机遇在B端还是C端,业内有不同样的意见。有观点认为B端落地快、商业价值更大,但包含零一万物总裁李开复在内的人则坚持认为,走C端模式更有机会。这时,也有越来越多人在讨论:AI是一门烧钱的生意,投入越多但回报存疑,市场耐心开始不足了。

  对于这样的讨论,刘知远认为还为时尚早。OpenAI推出的ChatGPT拉开了通用 人工智能 的序幕,它的意义类似于2000年左右的互联网浪潮。“在这样早期的阶段,就去讨论C端好做还是B端等特别具体的小问题,有点虚无缥缈,或说似乎不那么重要。”

  刘知远告诉南都记者,应该把大模型看得更“大”一点,它不只是具体的应用那么容易,而是相当于互联网甚至芯片级别的一个大浪潮,将造成长远影响。

  他认为,当前大模型还处在一个初级阶段,初步验证了从数据到知识的一个学习和提取的通用方法,能够帮助各个行业更好地管理专业领域的知识,并且进行自动化应用。

  而这项技术还远远没有“收敛”,仍在快速迭代之中。一家公司若从未专门做过大模型方向的积累和研究,那在后续的竞争中将难以保持模型制程的领先。

  “如果一个花费几千万元训练出来的模型,跟别的企业相比有代差——在模型效果、所需算力和能耗上都没有竞争力,那一定会被市场淘汰。总之,你得先有更强的技术能力,才能赶上这波大模型的发展浪潮。”刘知远说。

  在刘知远看来,未来5到十年内,大模型之争更决定于相应技术上的迭代。尽管如此,在技术发展进程中也应去探索属于AGI、属于大模型的商业模式。因为越往后,大模型的较量将夹杂更多商业模式、产品运营设计等综合方面的比拼,而行业也会经历一轮又一轮的洗牌。

大模型未来怎么走?深入垂直专业领域提质增效

  在面壁智能首席科学家之外,刘知远还有一个身份是老师。

  他在清华大学开设的课程中,有一门课叫《迈向通用 人工智能 》。为了回答同学们关于这门课的问题,他开发了一款“AI教师”的工具来辅助回答。在获得几百位同学的积极反馈后,刘知远计划把这一应用推广——为每位2024级入学的新生配备一个成长助手,用AI帮助学生处理可能遇到的各种课业难题。

  “现在大模型所彰显出来的通用知识管理能力,我认为今年下半年,应该会在很多领域开始看到不同创新应用。光是在清华做的这种AI+教育的创新,我就觉得颇有情趣。”刘知远对南都记者表示。

  其实其实不仅在教育领域,大模型在司法领域也有创新应用。今年6月28日,深圳中院上线运行面壁智能参与研发的系统,这一系统覆盖法院立案、阅卷、庭审、文书制作等审判业务的85项流程,还能针对一些典型纠纷,预判调解难点,智能推送法律知识和典型案例。

  “为啥法律领域的大模型落地速度快?”刘知远认为,一个因素在于借助AI技术可以助推法官提质增效,从大量重复性的劳动中解放出来。面对案多人少的突出矛盾,法院拥抱AI的积极性特别高。

  另外一个主要原因,则是信息化水平高——包含金融、互联网领域也一样,“它们的数据是天然的,所以大模型用起来很顺。”在刘知远看来,“现在限制大模型广泛应用的瓶颈不在于技术,而在于相关的信息化、数据化的准备上。”

  谈及大模型发展趋势,刘知远认为大模型将持续深入各个专业垂直领域。另外,数据质量决定了模型的上限——即便手握大量的数据,但无法从中提取出高质量的内容,那么所训练出的模型也将受限。因此刘知远认为,将来还会出现专门的数据治理团队,助力各个领域更好地挖掘数据价值。

手机扫码浏览该文章
 ● 相关资讯推荐
 ● 相关资讯专题
  • 网络建设业务咨询

   TEl:13626712526