商业洞察

【Agent】阶跃星辰李璟 - 2025年将是Agent落地元年推理能力和多模态是研究重点

【查看信息来源】 3-12 11:50:22

　　《科创板日报》3月12日讯（记者陈美）最近，“ 陆家嘴金融沙龙”第贰期在上海浦东陆家嘴圆满举行。本期沙龙围绕“资本市场大时代：AI+千行百业”这一主题，展开深度研讨与交流。参会嘉宾、国内知名AI大模型公司上海阶跃星辰副总裁李璟发表了关于AI大模型发展的演讲，探讨了Agent在现今科技趋势下的重要性与应用前景。

　　“从今年1月份已经感受到大模型行业的热潮。”李璟谈到，对于AGI的发展过程，有三个阶段的领会。一是模拟设计阶段，这一阶段模型主要对语料进行表征模仿训练，包含视频、声音、语言、图像、4D时空等。

　　二是模型处理问题阶段，在这一阶段中，目前以强化学习范式为核心的模型登上舞台，最近大火的DeepSeek-R1，更早时间的AlphaGo系列学术成果，背后都是强化学习。“在这一阶段中，强逻辑推理时代将造成很多Agent的诞生。”

　　三是归纳阶段，模型可以达到人同样的智能。苹果砸到牛顿头上砸出万有引力定律，模型也应该能自主探索科学规律；在归纳阶段，AI可以主导一系列模型创新。

　　“就发展方向来看，近期强化学习和新的RAG范式模型成为热议焦点。”李璟表示，作为科技从业者，更关注深度求索背后的DeepSeek-R1 Zero，这是一种纯强化确定框架模型范式。

　　在视觉推理能力的前沿探索方面，人形机器人对视觉推理能力有极高需求。但当前视觉模型仍处于类似强化学习之前的GPT范式中，未能很好地解决“理解与生成统一”的问题。“对于人类而言能轻易完成的任务，如统计相片中的人数、描述特定位置人员穿戴等，现有模型存在一定难度。一旦模型探索出视觉推理能力，这将极大推动人形机器人等产业的应用。”

　　除了偏推理范式的模型，多模态感知也十分关键。李璟认为，人类是多模态动物，具备语言、视觉、听觉、嗅觉等多种感知方式，能天然进行多模输入交互。“以当前最强的图片理解模型为例，在模拟人形机器人场景中，要求机械手在维持桌面整洁的同时取出书籍。多模态模型能够给出良好反馈，展现出一定的推理能力，尽管多模态模型仍处于早期阶段，但已彰显多模交互在理解上的强大感知能力。”

　　在视频理解方面，这是一项颇具挑战的任务。对于无字幕和配音的视频，多模态理解模型能够施展作用。在终端场景中，语音交互也是重要的交互入口。

　　“过去的三段式语音模型，即先语音转文字，再经大模型处理得到文字回复，最后转化成语音，存在诸多毛病”，李璟解释称，为解决这些问题，业界推出了生成、理解一体化方案，输入输出均为语音。

　　基于行业的变化，2025年将是令人兴奋的Agent落地元年。在李璟看来，Agent的实现主要依赖两大能力：一是多模态交互能力。过去一年，声音和视觉等多模态交互获得了明显进展。二是慢思考的推理能力。以强化学习为代表的强推理模型的出现，推动了这一技术的良好发展。“基于这两种能力，我们坚信今年将是Agent落地的关键一年。”

　　在Agent的实际应用方面，李璟表示，看好两个领域：一是终端领域，在与一些手机厂商的合作中，看到了下一代终端的潜力。二是金融领域。除手机终端外，金融业也是Agent的天然落地场所。金融领域需要深度思考和准确信息，这是单一大模型范式难以解决的。

【Manus】爆火出圈后 - Manus与阿里通义千问达成合作

【Manus】-能帮你干活的-AI智能体来了专家称今年有望迎来爆发式增长

【Manus】-西街观察-热潮之下，让Manus再飞一会儿

【Manus】同行如何看待Manus爆火

【中信证券】一财社论 - 智能体发展当厘清冒险和冒进的边界

【Manus】是炒作还是真突破？Manus的真实面目是什么？

【Manus】21深度-市场炒作还是技术突破？争议中的Manus与更近的AI agent时刻

【Manus】-一码难求-的Manus背后，AI Agent需求提前爆发？

【Manus】国内火国外冷 Manus遭四重质疑 - 是技术奇迹还是饥饿营销？

● 相关商业热点