安大互联
财经热点 > 财经资讯 > 专访岩芯数智CEO刘凡平 - 分区激活+同步学习 探索实现AGI新路径
【人工智能】专访岩芯数智CEO刘凡平 - 分区激活+同步学习 探索实现AGI新路径
浏览次数:【452】  发布日期:2024-7-3 17:55:57    文章分类:财经资讯   
专题:人工智能】 【大模型】 【2024】 【智能机器人
 

  本期嘉宾简介:

  刘凡平,结业于中国科学技术大学,上海科技专家库专家,曾出版《 大数据 搜索引擎原理分析》、《 大数据 时代的算法》、《神经网络与深度学习应用实战》、《突围算法》等技术著作,作为发明人申请 人工智能 技术相关专利20余项。

  Key points:

  1、Transformer大模型在实现AGI上存在局限性

  2、大模型根据任务需求分区激活才是符合人脑的形式

  3、端侧模型部署的竞争需要向更低算力设备发展

  麻省理工学院(MIT)等机构近日发表在顶级学术期刊《自然》杂志的一篇文章观察到,语言其实不等于思维。这引发了AI社区的广泛讨论,以chatGPT为代表的大语言模型通向通用 人工智能 (AGI)的路线完全错了?

  岩芯数智总裁刘凡平在接受第壹财经专访时表示,他认同语言其实不等于思维,以chatGPT为代表的大语言模型在思维如何表征的算法上做得其实不好,算法上的局限性造成大模型其实不具备自我学习的能力,如何解决模型个性化即时学习成为关键。

  由刘凡平带队的RockAI于2024年1月发布了非Transformer架构的通用自然语言大模型——Yan1.0模型,同时提出“同步学习”概念,允许模型在训练和推理进程中实时更新知识,这种学习方式类似于人类大脑的工作机制,能够快速适应新的情景和需求。

  通用 人工智能 应有多种实现方式

  以chatGPT为代表的Transformer大模型需要前期通过大量文本数据进行预训练,让模型学习语言的通用模式和知识。在预训练完成后,通过在特定下游任务中进行微调对齐,激发模型抛砖引玉的能力。通过这些训练机制,Transformer大模型能够模拟人类语言表示,并在多种任务上展现出卓越的性能。

  “人类语言表达只是思维的表象,我们不能仅凭表象实现通用 人工智能 。Transformer大模型通过 海量数据 训练模拟人类语言表达,但表象的模拟其实不等于思维,这也是近期chatGPT被疑问是否能够实现通用 人工智能 的原因之一。”刘凡平在接受采访时表示。

  同时,Transformer大模型每一次训练都需要耗费巨大的算力和数据。刘凡平表示,Transformer大模型虽然目前能通过预训练实现抛砖引玉的能力,在实践中却有着不能实时改进和学习的问题,每3-6个月都需要重新训练一次。

  “以chatGPT为代表的Transformer大语言模型在思维如何表征的算法上做得其实不好,算法上的局限性造成大模型其实不具备自我学习的能力,这也是我们一开始就选择不follow‘Transformer’大模型技术路线的原因。”刘凡平表示,通用 人工智能 本身应该有多种实现方式,算法是核心,希望探索一条新的路径,能够效率更高、效果更好。

  刘凡平表示,主流Transformer大模型的全参数激活本身就是不必要的大功率消耗,思维的表达方法和显现方法是Yan模型算法的重要方向,参考人脑大概800亿-1000亿个神经元,人在开车和读书时分别激活的是脑部的视觉区域和阅读区域,实现大模型根据任务需求分区激活才是符合人脑的形式,这不仅可以减少训练数据量,同时也能有效施展多模态的潜力。

  据了解,RockAI的Yan模型是基于仿生神经元驱动的决策算法,模型可以根据学习的类型和知识的范畴分区激活,同时RockAI提出同步学习概念,在对知识更新和学习时,模型层面训练和推理同步进行,以期实时、有效且连续性地提升大模型的智能智力,应对各类个性化场景中出现的问题。

  它的底层原理是利用神经网络训练的前向流传和反向流传,前向流传就像是神经网络在尝试回答问题,而反向流传则是在检查答案对不对,并学习如何改进答案。RockAI给出的同步学习解法核心在于不断尝试寻找反向流传的更优解,以更低代价更新神经网络,同时以模型分区激活降低功耗和实现部分更新,从而使得大模型可以像人类学习一样建立自己独有的知识体系。

  在研发进度方面,今年3月,Yan 1.2模型已经实现类脑分区激活的工作机制,5月底,实现全模态部分视觉支持,目前同步学习仍在实验室最后验证阶段,仍需要大规模测试。刘凡平表示,随着把多模态的视觉、触觉和听觉能力补齐,Yan 2.0最快将于今年年底面世。

  端侧大模型部署需向更低端设备走

   人工智能 技术飞速发展,大模型在实现通用 人工智能 (AGI)方面虽展现出巨大潜力,但以往的Transformer架构在端侧部署时面临算力成本高、运算速度缓慢和隐私安全等挑战,端侧智能的实现已成为科技界的新战场。

  首先,Transformer大模型对算力的高需求使得端侧设备难以承担,尤其是在移动设备和 物联网 设备上;其次,端侧部署需要快速响应,但Transformer模型往往因为其复杂的计算过程造成运算速度受限;另外,数据隐私和安全问题也日益凸显,用户对于数据在云端处理的安全性和隐私性越来越重视。

  “相较于Transformer大模型哪怕回答一个‘你好’都需要全参数激活,Yan模型类脑分区激活的工作机制在低算力设备上的部署具备天然优势。”刘凡平表示。

  刘凡平表示,确保算法兼容终端设备乃为必要前提,唯有实现终端应用与运行之通顺无阻,方能充分施展 人工智能 于现实场景的应用潜力及商业价值。

  目前Transformer大模型通过剪枝(Pruning)、量化(Quantization)和知识蒸馏(Knowledge Distillation)等技术减小模型大小,降低模型对内存和计算资源的切实需求,能够实现在PC或高端手机等高算力终端设备上的部署。

  “高、低端终端设备的算力差距很大,为了满足例如工业等更广泛的终端应用场景,端侧部署的竞争需要向更低端设备走。”刘凡平表示,在“树莓派”上率先跑通是Yan模型证明在低算力设备实现无损本地化部署的里程碑。

  树莓派(Raspberry Pi)由英国树莓派基金会开发,作为全球最为颇有知名度的袖珍型小巧却又广泛应用的微型电脑,可应用于 物联网 、工业自动化、 智慧农业新能源智能家居 等场景及设备,譬如门禁、 机器人 等终端。

  采访现场,RockAI职员展示了一台部署了搭载Yan模型的树莓派微型电脑的小型人形 机器人 ,在不联网的状态下,该小型人形 机器人 可以十分流畅地与记者进行对话、理解周围环境和读书。现场职员表示,该搭载Yan模型的树莓派成本仅数百元。

  “除了解决在低算力终端部署的困扰,Yan模型还期待能够解决模型的个性化自主学习问题。”刘凡平表示,在To B的实践中,尤其是在需要严谨内容的应用场景下,一旦内容和评价发生较大转变,Transformer大模型往往要1-2个月把数据清掉重新训练后再交付,客户一般很难接受。

  “随着同步学习进入实验室最后验证阶段,全模态支持+实时人机交互+同步学习的落地,Yan 2.0的出现将进一步增进从感知到认知再到决策的智能循环加速。”刘凡平表示,同步学习技术采用一种持续进化的策略,使得机器学习模型能够在任意时间点接纳并整合新知识,从而实现对环境变化的高度动态适应性。在实现同步学习的进程中,不单要处理实时数据处理、保持模型性能稳定不出现剧烈效果波动、灾难性遗忘等诸多问题,而且要面对端侧硬件的适配和性能优化工作。

  刘凡平也坦言,目前仍需要完善设备前期适配工作,端侧模型需要结合实际硬件去做适配研究和迭代改进,离终极的个性化AI还需要时间,每种硬件设备都有其独特的架构和限制条件,RockAI工程团队花了大量精力确保模型能够在有限的计算资源下运行时保持较高的性能和响应速度。

  除了Intel、Arm这些在PC和 机器人 上已经展示的芯片,RockAI也在积极适配 国产芯片 ,由于是自研的非Transformer架构,团队需要平均投入1-2个月的时间适配完一款。据了解,目前越来越多的 国产芯片机器人 厂商已经主动提供硬件,RockAI的研发团队也将迎来更多的挑战。

  展望未来,刘凡平表示,目前定位的是支持云端和端侧的大模型,未来目标是成为通用 人工智能 操作系统,类似于windows或苹果iOS系统,可以部署在手机、电脑,甚至电视、音箱、 机器人 等各类设备,根据用户的自然语言、行为和所属的场景进行自主学习,实现个性化的通用 人工智能 服务,最终形成可交互的多样性机器智能生态。

  通往通用 人工智能 的道路无疑布满了不确定性与争议,RockAI所选择的非Transformer架构路径更是如此。然而,在这布满挑战与未知的征途上,亦蕴藏着无限可能。RockAI正努力为业界造成新的思考与探索。

手机扫码浏览该文章
 ● 相关资讯推荐
2024-7-6【大模型】深入链接千行百业 - 大模型商业化百花齐放
2024-7-6【2024】福建金森 - 预计2024年上半年亏损2000万元-3900万元
2024-7-6【市盈率】金智科技 - 2024年上半年净利同比预增43.38%-81.98%
2024-7-5【跨境电商】跨境新生代2024③ - 下一片热土!对话巴西跨境支付平台EBANX - 中国跨境电商的新兴市场潜力有多大?
2024-7-5【2024】-公告精选-牧原股份6月销售生猪收入107.1亿元
2024-7-5【2024】曾研究股票到深夜!上海一女子挪用1360万元公款购房炒股 - 不仅亏损还被提起公诉
2024-7-5【2024】纳芯微多名股东拟合计减持不超6%公司股份
2024-7-5【2024】曾研究股票到深夜!上海一女子挪用1360万元公款购房炒股 - 不仅亏损还被提起公诉
2024-7-5【市盈率】金融街 - 预计2024年上半年亏损18.21亿元-21.86亿元
2024-7-5【市盈率】东易日盛 - 预计2024年上半年亏损4.8亿元-7.2亿元
 ● 相关资讯专题
大模型】  【商业化】  【百花齐放】  【2024】  【净利润】  【福建金森】  【上半年】  【市盈率】  【市净率】  【金智科技】  【市销率】  【TTM】  【跨境电商】  【EBANX】  【跨境支付】  【新兴市场】  【牧原股份】  【纳芯微】  【金融街】  【东易日盛】 
  • 网络建设业务咨询

   TEl:13626712526