【大模型】阿里开源首个全模态大模型，通义总经理 - 开源比拼技术领先力

【查看信息来源】发布日期：3-27 21:23:53 文章分类：商业洞察

K图 BABA_0

　　3月27日，阿里宣布开源Qwen2.5-Omni，这是通义系列模型中首个端到端全模态大模型。

　　据阿里介绍，Qwen2.5-Omni可同时处理文本、图像、音频和视频等多种模态数据的输入，并实时生成文本与自然语音合成输出。

　　相较于GPT-4o、Gemini-1.5-Pro 等数千亿参数的闭源大模型，Qwen2.5-Omni仅有70 亿参数。阿里表示，这让全模态大模型在产业上的广泛应用成为可能。即便在手机上，也能部署和应用Qwen2.5-Omni模型。此前，阿里巴巴联合开创人、董事会主席蔡崇信确认了阿里与苹果就AI合作的传言，国行版苹果手机将采用阿里的AI技术。

　　除了参数尺寸小的优势外，阿里称Qwen2.5-Omni在语音理解、图片理解、视频理解、语音生成等领域的测评分数，均领先于专门的Qwen2-Audio或Qwen2.5-VL模型，且语音生成测评分数（4.51）达到了与人类持平的能力。

　　这得益于Qwen2.5-Omni采用的Thinker-Talker双核架构等技术的创新。Thinker负责解决和理解用户输入的内容，Talker则输出相应的语音标记，好比让模型拥有了人类的“大脑”和“发声器”。

　　阿里方面还公布了大模型开源路线的成果：直到今天，海内外AI开源社区中千问Qwen的衍生模型数量突破10万，是公认的全球第壹开源模型。另据全球最大AI开源社区Huggingface在2月10日发布的开源大模型榜单，排名前十的开源大模型，均是基于阿里通义千问开源模型二次训练的衍生模型。

　　“开源本质也是在比拼谁的技术更强，有领先力才有意义。”3月27日，阿里云通义大模型业务总经理徐栋在博鳌亚洲论坛期间接受南都记者采访时说，如果大模型公司只是开源一款位列第贰甚至更落伍的模型，对业界而言便失去意义，这些开源模型会被淹没。

　　虽然DeepSeek扭转了开源和闭源模型阵营的力量比对，包含百度在内的闭源路线拥护者也发生180度转向，但徐栋认为，这不意味着所有企业一定会追求开源。因为其它公司可能评估其模型的能力达不到开源的实力，开源之后未必能马上得到很多反馈。

　　受访时，谈及AI应用层的前景，徐栋表示，众多研究论文的涌现表明，当下模型性能的界限探索尚未完全展开，模型的能力正处于发展早期至中期的阶段。还需要一些时间，才能看到AI应用层的爆发。

　　AI智能体是AI落地应用的形态之一。近期，Manus带火Computer Use Agent（用于电脑的智能体）概念。此前，手机厂商也在嵌入能自主操作用户指令的AI智能体。但徐栋认为，该类智能体还在相对早期的状态，延时是一个很大的问题，而且精度有待提高。另外，这些智能体目前依赖于云端运行，如果后续能落地到端侧，将会造成更多的商业可能性。

手机扫码浏览该文章

● 相关商业动态

【统计局】电诈止步运营商 - 中国构建高效反诈大模型

【2024】一季度A股36家企业股价翻番，大牛股*ST信通拿下37个涨停，DeepSeek概念最凶猛！

【人工智能】AI-一本正经瞎编-咋办？

【quot】这是一场围绕AI的学术、产业、投资大讨论，先锋人物各亮哪些核心观点？

【茶百道】新茶饮-冰火两重天- 蜜雪领跑、奈雪掉队出海能否成为第二增长曲线？

【茶百道】新茶饮-冰火两重天- 蜜雪领跑，奈雪掉队，出海能否成为第二增长曲线？

【人工智能】北上广深成，有-蓉-乃大

【张晓燕】2025中关村论坛年会 - 专访张晓燕 - 盲目跟进大模型将陷入被动，中小企业可转向轻量化-小模型-创新

【人工智能】人工智能领域立法，也可以考虑先行出台部门规章

【人工智能】百变餐饮向阳而生 - AI-打工人-门前互动、巡检系统引入DeepSeek 舌尖上的人工智能3.0