商业热点 > 商业洞察 > 关于大模型竞争，傅盛捅破的不只有数据壁垒

【金融界】关于大模型竞争，傅盛捅破的不只有数据壁垒

【查看信息来源】发布日期：12-2 18:16:24 文章分类：商业洞察

专题：【金融界】

K图 CMCM_0

　　尽管OpenAI下一代旗舰模型的上线时间还是未知数，但多方消息指向同一个可能性：性能没那么大飞跃了。来自OpenAI的员工和科研人员表示，高质量文本和其它数据的供应不足是GPT模型性能减速的原因之一。

　　国内有关数据的讨论也从未降温，仅这半个月，月之暗面开创人杨植麟说，“当Scale（规模）差不多时，更多算力可能其实不一定能直接处理问题，核心是高质量的数据没那么多了”，蚂蚁数科索性上线了全新的AI数据合成品与生产平台。

　　猎豹移动老总兼总裁、猎户星空老总傅盛更直白，他要捅破窗户纸，“大模型行业竞争，真实的竞争壁垒来自于数据”，猎豹移动则联合旗下的聚云科技于近日推出数据服务产品“AI数据宝 AirDS”。顶级模型成长放缓是好是坏？怎么平衡人工和机器做数据标注成本？猎豹移动高管团队向北京商报记者开诚布公。

　　卡在数据上

　　开发进程中，OpenAI的最新模型Orion（猎户座）未能达到预期的性能，谷歌的Gemini模型和Anthropic的Claude3.5 Opus也都遇到了瓶颈，在业内人士看来，三家似乎都面临相似的问题：越来越难以获得高质量数据。

　　有关Scaling law（规模定律）是否失效的问题又一次被抛给大模型从业者。

　　用OpenAI一篇论文中的定义，所谓Scaling law,是指大模型的最终性能主要与计算量、模型参数量和训练数据量三者的大小相关，而与模型的具体结构（层数/深度/宽度）基本无关。换言之，仅仅增加模型规模和训练数据，就能明显提升人工智能能力，而无需取得根本性的算法突破。

　　“没人能下这个结论，”傅盛话锋一转，“从客观事实看，顶级模型的能力和成长，肯定是放缓的，Scaling law不一定放缓了，但受限于数据的容量，不是说芯片和算法不重要，而是大家在这两点上很难作出不同化。”

　　一种解决方案是合成数据，Epoch AI Research研究团队预测，“到2026年，现存的用于AI模型训练的高质量语言数据将耗尽”。

　　“将来的AI应用需要大量稀缺且难以获取的长尾数据，如自动驾驶中的极端天气与极端路况数据，具身智能训练所期望的复杂场景数据。在此环境下，数据合成将成为关键”，蚂蚁数科AI科技技术责任人、蚂蚁天玑实验室主任李哲持以上观点。

　　“合成数据的确是一个很关键的补充，但仅仅使用合成数据肯定是不够的”，猎户星空首席科学家韩堃告诉北京商报记者。猎豹移动将重点放在大模型数据服务上，AI数据宝AirDS提供数据收集、清洗、标准、提示词工程及评估等服务。

　　只会“拉框”远远不够

　　以数据标注为例，“上一代数据标注趋向于常见的检测、识别和固定化、规则化的任务，这些标注相对来说比较明确，好比依照视频找物体，根据语音找文字。但在大模型时代，企业应用是多种多样的”，猎豹移动顶级副总裁孙明焱向北京商报记者举例，“好比客户希望用大模型查数据库，希望让大模型画组织架构图，这种需求找一个标注人员来做是挺难的”。

　　用傅盛的话讲，大模型让数据标注和服务走向一体化，“光雇人标人脸的时代已经适应不了如今的切实需求了。没有做过大模型、大模型应用的企业，要构建这套体系需要时间”。

　　人工和机器间的平衡，也木有特定的套路。

　　“数据服务肯定是需要人工的，但大模型时代会大量借鉴AI模型和工具来提高数据标注的效率,”韩堃进一步说，“如果所有的数据服务都通过人工服务，标注或清理的速度肯定跟不上，成本也非常大，但要产出高质量的数据，仅通过模型肯定是不够的。我们在自己训练模型的进程中发现，数量和质量的平衡点非常微妙，要通过大量实践才能找到，一个既保证数量，质量又特别高的点。而这个点跟企业的目标相关，做预训练、微调或应用，对于数量和质量的要求是不太同样的。”

　　2025年应用会繁华

　　除了猎豹移动，蚂蚁数科也采用人机协同模式。北京商报记者了解到，在数据标注方面，蚂蚁数科AIGD平台通过人机协同进行标注，人工智能算法能够自动识别和预处理大部分基础信息，预标注模型依赖人工标注量降低了70%以上。

　　客户需求决定市场，市场永远是动态的。站在客户的视角，“大模型标注更多是在应用层施展大模型的能力”，猎豹移动副总裁童宁透露。

　　他分享了一个有关读取PDF信息的案例，“因为合同的种类有许多种，最初客户认为大模型读取PDF形式合同的正确率到80%就上不去了。后来我们做了POC（概念验证），通过一个智能体理解上下文，调整成一些更优质的提示词。这个流程中，标注团队的能力体现在根据场景设计一套智能体系中间的工作流，并对应成能够输出的高精度的提示词”。

　　这些都是大模型应用落地需要处理的问题，即大模型商业化的“最后一公里”。

　　“猎豹移动不靠大模型挣钱，也不靠模型接口调取量挣钱，而是通过应用去挣钱，”傅盛认为，“现在可能没有特别顶级的应用出来，2025年大模型应用的繁华是可见的。”

　　他以OpenAI为例，“最近萨姆·奥尔特曼（OpenAI 总裁）接受采访，人家问他OpenAI最缺什么，他讲我们最缺产品。OpenAI也是把产品能力、应用能力加强了，最近半年内推出的功能都是应用在做的。所以我认为，2025年应该是大模型大繁华的一年”。

手机扫码浏览该文章

【OpenAI】美股收盘 - PCE数据提振市场三大指数均涨超1%

【金融界】券商、基金-关键少数-任职迎新要求！细化专业胜任能力要求强化机构审慎考察义务

【半导体】收入复苏45股年内上涨30% 半导体2025年将与AI-共舞-？

【TikTok】科技早报 - 张一鸣在港成立个人投资基金；OpenAI约400名员工可股票套现

【深汕特别合作区】深圳市市场监督管理局深汕监管局全面提升市场综合监管效能谱写高质量发展-监管-新篇章

【2024】以企业高质量发展筑牢估值基础

【上市公司】董监高责任险投保升温高管对冲-无心之失-有了安全垫

【上市公司】锚定新质生产力资本市场向-新-而行大有可为