生成式 人工智能 技术不断发展,训练数据来源成为人们最关注的问题之一。
去年11月,国家数据局等17部门联合印发的《“ 数据要素 ×”三年行动计划(2024—2026年)》提到,要提升数据供给水平、建设高质量语料库和基础科学数据库。
最近, 第七届数字中国建设峰会首发研究成果新闻发布会在福州举行。会议现场发布了多份由数字中国研究院(福建)、同济大学、阿里、高德等单位联合编制的多本 数据要素 行业白皮书。其中,《大模型训练数据白皮书》(以下简称“《白皮书》”)分析了当前大模型研发面临的标准制定、质量评估、总量不足等诸多问题,并尝试提出建议。
“我们期望通过推动 数据要素 市场建设解决大模型研发面临的数据瓶颈,继而施展大模型对于数据的处理和分析能力,创造更大的生产力。”数字中国研究院(福建)副院长邬群勇在发布会现场指出。
高质量数据难题待解
在生成式 人工智能 时代,大模型表现与训练数据质量心心相印。高质量数据模型训练和应用进程中有着不可替代的重要性。
高质量数据其实不是用之不竭的资源。一项来自EpochAlResearch团队的研究就表明,高质量的语言数据存量将在2026年耗尽。
要解困,首先需要理解啥是高质量数据。
由于技术更迭节奏、产业发展速度都很快,人们对大模型表现和功能的期待也在不断变化。《白皮书》指出,当前数据质量高低的判定标准主要决定于模型的应用目的,数据类型会根据模型的发展阶段“因时而动”、根据技术人员的领会判断“因人制宜”、根据模型的练习效果“因效而定”。
因此,对证量的比较只能在同类型语料中展开。《白皮书》指出,该类比较往往需要从质量、规模、多样性三个维度动身。
质量方面,被视为“高质量”通常是因为其信息已经通过了有用性或质量筛选。好比新闻、论文数据等会经由专业标准筛选,社交媒体上的内容则可能由用户互动积极性筛选。假如不确定来源,则可以通过少量样我工评价判断其可读性、帮助性、安全性等指标的质量。
数据规模算是比较陈词滥调的问题。在Scaling laws(规模法则,也称标度律)还相当有说服力的当下,当模型的参数或计算量按比例扩大时,模型性能也与之成比例提升。“不单纯是语料规模越大越好,而是高信息密度的语料规模越大越好。”《白皮书》中进一步提示。
同类型语料中的多样性也是值得注意的问题。《白皮书》认为,保证多样性将有效减小模型可能表现出的偏见或系统性不平等。
判断标准确定,“数据从哪里来”是下一步要面对的问题。
“首先是数据开放水平有待进一步强化。虽然数据开放共享的理念得到推广,但实际可用的开放数据与市场需求仍旧存在较大缺口。”邬群勇在接受21世纪经济报道记者采访时指出,虽然一些公共平台开放了数据获取的API,但其数据服务随同严格的制约,好比限制访问量,附加收费等。
另外,受限于价值评估、质量判断等配套规则、标准并未完善,数据价值被确认,进而走向流通利用之路也面临一定挑战。
针对高质量数据供给难题,现行方案偏重于进一步构建行之有效的数据开放机制,鼓励行业数据、公共数据等充分流转应用。
合成数据或成新路径
其实,建立数据开放机制,在训练进程中引入合成数据或许也是一条“开源”的路径。
合成数据是通过算法和数学模型建立的数据。通过建模真实数据的分布,然后在该分布上进行采样,建立出新数据集,能够让合成数据模拟出真实数据中的统计模式和关系。在大模型训练中,合成数据能够施展补充或替代真实数据的作用。
据媒体透露,OpenAI、Anthropic、DeepMind等公司都曾表态将探索在训练中引入合成数据的存在性。《白皮书》也提到,OpenAI的Sora就用到了大量由游戏引擎合成的视频数据作为训练集。
《白皮书》认为,合成数据解决了部分类型的真实世界数据难以观测的问题,拓展了训练数据的多样性。好比,一些“边缘情况”(如极端天气、罕见病)或真实世界中的“潜在隐患”(如金融诈骗等安全风险)数据的生成可以弥补因样本分布不均衡引发的客观限制。
邬群勇认为,合成数据可以提升模型训练的效率。一方面,合成数据可以根据特定的切实需求进行设计,比真实数据集更广泛,可确保满足特定的数据质量标准。另一方面,该类数据可以快速生成,几乎不用人类标注,且不用进行繁琐的数据清洗和预处理工作,可提高数据获取效率。
合成数据生成过程可能存在偏差或噪声,有观点认为数据的质量和可靠性无法完全模拟客观世界。但在邬群勇看来,部分噪声数据对模型训练来说是务必的,有助于提高模型的鲁棒性。
对于饱受疑问的隐私安全疑虑,《白皮书》提到,合成数据可以替代个人特征数据,有助于用户隐私保护,解决数据获取合规性的问题。当前,类似 “猜你喜欢”功能的实现往往需要大量用户数据的参与。大模型理解力逐渐提高的当下,一方面,可以用合成数据替代用户数据训练模型;另一方面,用户的切实需求也可以通过与模型的自然语言交流被系统理解。“整个过程在提升推荐匹配度的同时,还可以降低推荐模型对个人特征数据的依赖。”《白皮书》指出。
在可及的未来,合成数据将有望在几大场景施展作用。
首先,合成数据可应用于多模态数据的生成。利用模拟器生成的多模态场景数据还广泛应用于具身智能 机器人 、自动驾驶、AIforScience等场景的练习。
其次是高价值领域知识的生成。合成数据能通过对现有数据的深加工,将之前不能被用于训练的数据转化为可用。例如工业制造领域,利用合成数据,可以把生产、制造等工艺流程相关的原始数据,结合行业知识图谱,转化为可供大模型学习的工业语料,以缓解行业语料短缺的问题。
据咨询公司Gartner预测,到2030年,合成数据将完全取代真实数据,成为AI模型所使用的数据的主要来源。美国AI研究机构Cognilytica数据显示,2021年合成数据市场规模大概在1.1亿美元,到2027年将达到11.5亿美元。