• 1
  • 2
  • 3

商业洞察

【Agent】阶跃星辰李璟 - 2025年将是Agent落地元年 推理能力和多模态是研究重点

查看信息来源】   3-12 11:50:22  
Agent】【多模态

  《科创板日报》3月12日讯(记者陈美)最近,“ 陆家嘴 金融沙龙”第贰期在上海浦东 陆家嘴 圆满举行。本期沙龙围绕“资本市场大时代:AI+千行百业”这一主题,展开深度研讨与交流。参会嘉宾、国内知名AI大模型公司上海阶跃星辰副总裁李璟发表了关于AI大模型发展的演讲,探讨了Agent在现今科技趋势下的重要性与应用前景。

  “从今年1月份已经感受到大模型行业的热潮。”李璟谈到,对于AGI的发展过程,有三个阶段的领会。一是模拟设计阶段,这一阶段模型主要对语料进行表征模仿训练,包含视频、声音、语言、图像、4D时空等。

  二是模型处理问题阶段,在这一阶段中,目前以强化学习范式为核心的模型登上舞台,最近大火的DeepSeek-R1,更早时间的AlphaGo系列学术成果,背后都是强化学习。“在这一阶段中,强逻辑推理时代将造成很多Agent的诞生。”

  三是归纳阶段,模型可以达到人同样的智能。苹果砸到牛顿头上砸出万有引力定律,模型也应该能自主探索科学规律;在归纳阶段,AI可以主导一系列模型创新。

  “就发展方向来看,近期强化学习和新的RAG范式模型成为热议焦点。”李璟表示,作为科技从业者,更关注深度求索背后的DeepSeek-R1 Zero,这是一种纯强化确定框架模型范式。

  在视觉推理能力的前沿探索方面,人形 机器人 对视觉推理能力有极高需求。但当前视觉模型仍处于类似强化学习之前的GPT范式中,未能很好地解决“理解与生成统一”的问题。“对于人类而言能轻易完成的任务,如统计相片中的人数、描述特定位置人员穿戴等,现有模型存在一定难度。一旦模型探索出视觉推理能力,这将极大推动人形 机器人 等产业的应用。”

  除了偏推理范式的模型,多模态感知也十分关键。李璟认为,人类是多模态动物,具备语言、视觉、听觉、嗅觉等多种感知方式,能天然进行多模输入交互。“以当前最强的图片理解模型为例,在模拟人形 机器人 场景中,要求机械手在维持桌面整洁的同时取出书籍。多模态模型能够给出良好反馈,展现出一定的推理能力,尽管多模态模型仍处于早期阶段,但已彰显多模交互在理解上的强大感知能力。”

  在视频理解方面,这是一项颇具挑战的任务。对于无字幕和配音的视频,多模态理解模型能够施展作用。在终端场景中,语音交互也是重要的交互入口。

  “过去的三段式语音模型,即先语音转文字,再经大模型处理得到文字回复,最后转化成语音,存在诸多毛病”,李璟解释称,为解决这些问题,业界推出了生成、理解一体化方案,输入输出均为语音。

  基于行业的变化,2025年将是令人兴奋的Agent落地元年。在李璟看来,Agent的实现主要依赖两大能力:一是多模态交互能力。过去一年,声音和视觉等多模态交互获得了明显进展。二是慢思考的推理能力。以强化学习为代表的强推理模型的出现,推动了这一技术的良好发展。“基于这两种能力,我们坚信今年将是Agent落地的关键一年。”

  在Agent的实际应用方面,李璟表示,看好两个领域:一是终端领域,在与一些手机厂商的合作中,看到了下一代终端的潜力。二是金融领域。除手机终端外,金融业也是Agent的天然落地场所。金融领域需要深度思考和准确信息,这是单一大模型范式难以解决的。

安大互联 - 您值得的拥有的网站建设专家
Email:401112684@qq.com
联系QQ:401112684
官方网址:www.fengbaosun.com
手机搜索:进入手机搜索导航>>

Copyright © 2006 www.fengbaosun.com 繁体中文