【金管局】AI训练数据荒下合成数据成为-开源-新解法？

财经热点 > 财经资讯 > AI训练数据荒下合成数据成为-开源-新解法？

【信息来源】发布日期：5-29 21:13:20 文章分类：财经资讯

专题：【金管局】

　　生成式人工智能技术不断发展，训练数据来源成为人们最关注的问题之一。

　　去年11月，国家数据局等17部门联合印发的《“ 数据要素 ×”三年行动计划（2024—2026年）》提到，要提升数据供给水平、建设高质量语料库和基础科学数据库。

　　最近，第七届数字中国建设峰会首发研究成果新闻发布会在福州举行。会议现场发布了多份由数字中国研究院（福建）、同济大学、阿里、高德等单位联合编制的多本数据要素行业白皮书。其中，《大模型训练数据白皮书》（以下简称“《白皮书》”）分析了当前大模型研发面临的标准制定、质量评估、总量不足等诸多问题，并尝试提出建议。

　　“我们期望通过推动数据要素市场建设解决大模型研发面临的数据瓶颈，继而施展大模型对于数据的处理和分析能力，创造更大的生产力。”数字中国研究院（福建）副院长邬群勇在发布会现场指出。

　　高质量数据难题待解

　　在生成式人工智能时代，大模型表现与训练数据质量心心相印。高质量数据模型训练和应用进程中有着不可替代的重要性。

　　高质量数据其实不是用之不竭的资源。一项来自EpochAlResearch团队的研究就表明，高质量的语言数据存量将在2026年耗尽。

　　要解困，首先需要理解啥是高质量数据。

　　由于技术更迭节奏、产业发展速度都很快，人们对大模型表现和功能的期待也在不断变化。《白皮书》指出，当前数据质量高低的判定标准主要决定于模型的应用目的，数据类型会根据模型的发展阶段“因时而动”、根据技术人员的领会判断“因人制宜”、根据模型的练习效果“因效而定”。

　　因此，对证量的比较只能在同类型语料中展开。《白皮书》指出，该类比较往往需要从质量、规模、多样性三个维度动身。

　　质量方面，被视为“高质量”通常是因为其信息已经通过了有用性或质量筛选。好比新闻、论文数据等会经由专业标准筛选，社交媒体上的内容则可能由用户互动积极性筛选。假如不确定来源，则可以通过少量样我工评价判断其可读性、帮助性、安全性等指标的质量。

　　数据规模算是比较陈词滥调的问题。在Scaling laws（规模法则，也称标度律）还相当有说服力的当下，当模型的参数或计算量按比例扩大时，模型性能也与之成比例提升。“不单纯是语料规模越大越好，而是高信息密度的语料规模越大越好。”《白皮书》中进一步提示。

　　同类型语料中的多样性也是值得注意的问题。《白皮书》认为，保证多样性将有效减小模型可能表现出的偏见或系统性不平等。

　　判断标准确定，“数据从哪里来”是下一步要面对的问题。

　　“首先是数据开放水平有待进一步强化。虽然数据开放共享的理念得到推广，但实际可用的开放数据与市场需求仍旧存在较大缺口。”邬群勇在接受21世纪经济报道记者采访时指出，虽然一些公共平台开放了数据获取的API，但其数据服务随同严格的制约，好比限制访问量，附加收费等。

　　另外，受限于价值评估、质量判断等配套规则、标准并未完善，数据价值被确认，进而走向流通利用之路也面临一定挑战。

　　针对高质量数据供给难题，现行方案偏重于进一步构建行之有效的数据开放机制，鼓励行业数据、公共数据等充分流转应用。

　　合成数据或成新路径

　　其实，建立数据开放机制，在训练进程中引入合成数据或许也是一条“开源”的路径。

　　合成数据是通过算法和数学模型建立的数据。通过建模真实数据的分布，然后在该分布上进行采样，建立出新数据集，能够让合成数据模拟出真实数据中的统计模式和关系。在大模型训练中，合成数据能够施展补充或替代真实数据的作用。

　　据媒体透露，OpenAI、Anthropic、DeepMind等公司都曾表态将探索在训练中引入合成数据的存在性。《白皮书》也提到，OpenAI的Sora就用到了大量由游戏引擎合成的视频数据作为训练集。

　　《白皮书》认为，合成数据解决了部分类型的真实世界数据难以观测的问题，拓展了训练数据的多样性。好比，一些“边缘情况”（如极端天气、罕见病）或真实世界中的“潜在隐患”（如金融诈骗等安全风险）数据的生成可以弥补因样本分布不均衡引发的客观限制。

　　邬群勇认为，合成数据可以提升模型训练的效率。一方面，合成数据可以根据特定的切实需求进行设计，比真实数据集更广泛，可确保满足特定的数据质量标准。另一方面，该类数据可以快速生成，几乎不用人类标注，且不用进行繁琐的数据清洗和预处理工作，可提高数据获取效率。

　　合成数据生成过程可能存在偏差或噪声，有观点认为数据的质量和可靠性无法完全模拟客观世界。但在邬群勇看来，部分噪声数据对模型训练来说是务必的，有助于提高模型的鲁棒性。

　　对于饱受疑问的隐私安全疑虑，《白皮书》提到，合成数据可以替代个人特征数据，有助于用户隐私保护，解决数据获取合规性的问题。当前，类似 “猜你喜欢”功能的实现往往需要大量用户数据的参与。大模型理解力逐渐提高的当下，一方面，可以用合成数据替代用户数据训练模型；另一方面，用户的切实需求也可以通过与模型的自然语言交流被系统理解。“整个过程在提升推荐匹配度的同时，还可以降低推荐模型对个人特征数据的依赖。”《白皮书》指出。

　　在可及的未来，合成数据将有望在几大场景施展作用。

　　首先，合成数据可应用于多模态数据的生成。利用模拟器生成的多模态场景数据还广泛应用于具身智能机器人、自动驾驶、AIforScience等场景的练习。

　　其次是高价值领域知识的生成。合成数据能通过对现有数据的深加工，将之前不能被用于训练的数据转化为可用。例如工业制造领域，利用合成数据，可以把生产、制造等工艺流程相关的原始数据，结合行业知识图谱，转化为可供大模型学习的工业语料，以缓解行业语料短缺的问题。

　　据咨询公司Gartner预测，到2030年，合成数据将完全取代真实数据，成为AI模型所使用的数据的主要来源。美国AI研究机构Cognilytica数据显示，2021年合成数据市场规模大概在1.1亿美元，到2027年将达到11.5亿美元。

手机扫码浏览该文章

● 相关资讯推荐

【邓白氏】数据、技术与应用场景结合邓白氏如何助力金融机构-大象起舞-？

【冷静期】至少7天！香港拟设个人贷款冷静期

【400万】香港金管局 - 对富邦香港违反打击洗钱条例处以400万港元罚款

【承德露露】香港金管局、北上资金，狂买这只A股！

【事业群】腾讯微保率先接入全国首个数据要素场内线上交易全闭环试点

【开源证券】至少7天！香港金管局拟推个人贷款冷静期，多家银行已抢推-冷静期-产品