【大模型】超长文本是AI大模型的能力突破口吗？ - 安大互联

安大互联

栏目导航

财经热点 > 财经资讯 > 超长文本是AI大模型的能力突破口吗？

【大模型】超长文本是AI大模型的能力突破口吗？

浏览次数：【136】发布日期:2024-3-26 1:50:36 文章分类：财经资讯

专题：【大模型】【上下文】【Kimi】【突破口】

　　最近，能“一口气读完20万字小说”的AI大模型应用Kimi再次为国内AI产业添了一把火。业内认为，国产大模型能力提升或成今年国内AI领域最核心的主线。超长上下文是主要突破口么？大模型还将如何提升能力？

　　在3月24日举行的2024全球开发者先锋大会（2024 GDC）大模型前沿论坛上，阿里通义、腾讯混元、稀宇科技MiniMax ABAB、商汤商量、书生·浦语五个大模型的技术责任人罕见“同框”，共同探讨未来大模型的技术演进方向。

　　超长上下文成国产大模型新竞逐焦点

　　3月18日，月之暗面公司宣布Kimi智能助手启动200万字无损上下文内测。2023年10月，Kimi首次亮相时其处理能力还只有20万字。说白了，Kimi只用了不到半年，就将上下文处理能力提升了一个数量级。

　　月之暗面介绍称，大模型无损上下文长度的数量级提升，能进一步打开对AI应用场景的想象力，包含完整代码库的分析理解、可以自主帮人类完成多步骤复杂任务的智能体、不会遗忘关键信息的终身助理、真正统一架构的多模态模型等。

　　消息发布后，Kimi访问量激增，一度不能正常使用。连日来，Kimi还带“红”一众A股“Kimi概念股”。以超长上下文处理能力为突破口，Kimi成为国内出现“百模大战”以来为数不多的“破圈者”。

　　Kimi迅速走红后，阿里宣布“通义千问”将向所有人免费开放1000万字的长文档处理功能，可以助推用户快速读研报、分析财报、读科研论文、研判案情、读医疗报告、解读法律条文、分析考试成绩、总结深度文章。360智脑也宣布正式内测500万字长文本处理功能，该功能将入驻360AI浏览器。

　　其实，从2023年下半年开始，大模型支持的上下文长度就快速增长，从早期GPT-3的2K（存储容量单位），到今年3月提升到1M。

　　“更长的上下文意味着什么，是我们需要思考的。”上海人工智能实验室首席科学家林达华介绍说，2K的上下文能力支持日常聊天、知识问答、短文理解；32K支持拟人对话、长文分析、代码解释及编写；100K支持处理长报告及短篇小说、智能体长时间交互、容易的软件及网站构建；1M支持处理长篇小说、直接注入小型知识库、项目级代码分析与构建。

　　长文本能力仍存局限性

　　林达华认为，直接使用上下文面临两个基本问题：一是超长上下文的推理计算代价高昂；二是上下文本身对信息不会进行压缩，不能直接捕捉其中的深层知识和规律。

　　上海人工智能实验室青年科学家陈恺认为，目前业内对于长文本的评测方式是“大海捞针”，也就是从超长文本中找出一个信息，很多模型在这样的测试中能做到接近100%的准确率。

　　陈恺说：“但如果把模型换到更接近真实的使用场景里，需要模型找一些碎片化信息并把它们联系起来，模型的能力和准确率会大幅下降。这和其它模型的应用能力类似，业内要继续关注模型的泛化性和实际应用能力。”

　　另外，业内也有声音疑问超长上下文的技术水平和价值。月之暗面方面称，公司为了实现更好的长窗口无损压缩性能，研发和技术团队从模型预训练到对齐、推理环节均进行了原生的重新设计和开发，不走“滑动窗口”“降采样”等技术捷径，攻克了很多底层技术难点。

　　达观数据副总裁王文广接受上海证券报记者采访表示：“从创新点来看，Kimi显示出了其在无损阅读方面的巨大潜力，超长文本上下文的输入为内容创作和整理提供了技术基础。但从技术本身而言，这只是个幌子，既没有对模型能力提升造成什么帮助，本身也没啥难度。”

　　达观数据是专注智能文本处理的国家级专精特新 “小巨人”企业。2023年7月，达观数据对外发布“曹植”大语言模型应用公测版，“曹植”具有长文本、多语言、垂直化三大特点。

　　王文广说：“从Kimi的走红来看，接着‘百模大战’会更加喧嚣，很快会有大模型厂商推出具有千万字甚至上亿字处理能力的模型。未来，大模型领域可能还会出现有幌子、技术难度不高的宣传点。但真实的产业应用，还是要静下心来，一步一个脚印提升模型能力，一点一滴来处理产业上的问题。”

　　五大模型“主创”共论技术演进方向

　　除了上下文长度，国产大模型还有哪些能力提升路径？下一步如何更大限度地施展“模”力？

　　阿里通义算法责任人周畅认为，合成数据会在未来大模型训练中饰演更重要的角色。合成数据是一种模仿真实世界数据的非人工建立的数据。

　　“通过使用合成数据，语言模型和多模态模型有望仅靠‘自己’便获得能力提升。升级数据处理能力将是提升模型研发水平的重要方向之一。”周畅说。

　　对于如何让模型本身深度参与迭代，陈恺表示，参照科研人员研发中需具备的能力，如果模型具备较强的数学能力、编程能力和头脑风暴能力，并很好地将几种能力结合起来，就能向“自我提升”的临界点迈进。

　　腾讯混元大模型算法责任人康战辉提到，目前，头部厂商的模型架构都在转向混合专家模型（Mixture of Experts，MoE）。混合专家模型即将大型模型拆分为多个较小的专家模型，每个专家模型负责解决特定的任务或数据子集。

　　在康战辉看来，未来，参数量较小的模型可能在应用端表现出更高效率和“性价比”，全模态输入输出的大模型将是下一阶段研究目标。

　　大模型的技术演进一方面旨在进一步提高能力，另外一个重要方向是怎样在现实场景中更好用。

　　稀宇科技技术副总裁安德森认为，人完成各种各样的工作时，其实不是仅靠自己的大脑，而是靠大脑加上各种外部的工具。因此，大模型在落地应用的时候也要考虑把大模型和其它工具，包含其它模型结合在一起，使其更加方便。

　　商汤科技大装置执行总监成功表示，大模型的条件能力已在很多场景落地，但在实践中，模型的推理能力，包含规划执行能力等仍需重点突破。同时，他强调关注效率和成本，模型能以更低成本、更快触达应用始终是技术发展的重要目标。

手机扫码浏览该文章

● 相关资讯推荐

2024-9-22【培训机构】国务院调查组相关负责人就佳乐苑小区特别重大火灾事故调查工作答记者问

2024-9-21【调查组】国务院调查组相关负责人就江西新余佳乐苑小区特别重大火灾事故调查工作答记者问

2024-9-20【金融租赁公司】金融监管总局有关司局负责人就-金融租赁公司管理办法-答记者问

2024-9-17【赵远军】参与内幕交易-星星科技- 光大证券前保荐部门负责人被罚

2024-9-17【龙力生物】月薪从10万降至7万，经手项目收罚单后被扣奖金，前投行负责人讨薪终审败诉

2024-9-17【投资者】每经热评︱前投行负责人内幕交易反巨亏 - 合规操作是规避风险最好方式

2024-9-17【华英证券】降薪后又被扣发奖金 - 这家投行前负责人讨薪失败！法院这样说

2024-9-14【赵远军】内幕交易-星星科技-，光大证券前保荐业务部门负责人连亏带罚近千万元

2024-9-15【赵远军】投行负责人被10年市场禁入！重组项目内幕交易倒亏533万 - 光大回应

2024-9-14【统计法】全国人大常委会法工委社会法室、国家统计局负责人回应统计法修改

● 相关资讯专题

【培训机构】【调查组】【金融租赁公司】【金融监管】【负责人】【《金融租赁公司管理办法》】【赵远军】【星星科技】【光大证券】【内幕交易】【证监会】【龙力生物】【安德利】【投资者】【华英证券】【2020】【统计法】【统计监督】【统计局】【全国人大常委会】

上一条 : 伊朗外长同欧盟官员通话 - 讨论地区和国际热点议题
下一条 : 雪域高山-种宝石-

关于我们

关于我们

付款方式

售后服务

主机域名

信息资讯

解决方案

网站建设

业务入口

网站建设
web软件开发
LOGO设计
环境配置
网站修改
其他需求

服务支持

提交工单
提交BUG
文件柜
实名制认证
会员注册
找回密码

信息资讯

移动网站

网络建设业务咨询

TEl：13626712526