最近,第七届数字中国建设峰会在福州举办。北京商报记者了解到,“ 数据要素 ”成了今年大会的热词,而增进 数据要素 的跨域可信流通,是从科技企业到金融机构重点投入研发的方向。
数据要素 市场规模指数级增长,然而, 数据要素 易被篡改、被扩散的特性,造成 数据要素 大规模流通仍存在“责任主体不清,利益诉求不一样,能力良莠不齐,责任链路难追溯”的问题。想要处理“不敢流通”“不愿流通”的难点,技术创新和应用是关键环节。在业内专家看来,隐私计算与密态计算将成为重要的“管道”技术。这时,这些为安全服务的技术也要考虑低成本,“让数据价值像自来水一样即开即用”。
规模指数级增长
数据是发展新质生产力的关键力量,具有推动社会发展的乘数效应。近年来,中国 数字经济 纵深发展,促使数据规模指数级增长。2023年我国 数据要素 市场规模达1273亿元人民币,而预计到2028年这一数字将涨至9000亿元人民币。
另外,很多企业成立专门的数据部门、数据公司,探索开发数据产品,金融、工商、交通、电信等领域的数据产品日益丰富,在主要数交所挂牌的产品数量超1.3万个。 数据要素 赋能经济社会各领域,涌现出一批示范引领作用强、数据赋能作用明显的典型案例。尤其是,数据驱动科学范式变革更加明显,据统计,我国已形成超过100个10亿参数规模以上的大模型。
“随着城市数据基础设施加快演进, 人工智能 等信息技术加快发展, 数据要素 的价值日益凸显,驱动着我国 智慧城市 建设迈向体系重构、质效提升的全域数字化转型新阶段。”国家数据局党组书记、局长刘烈宏说道。
当数据成为“要素”,在产业链内外的流通就成了必不可少的一环。而庞大的数据体量就呼唤更高的流通效率、更安全的流通过程。因此,在市场预期下,大模型和 数据要素 市场将发生良性互动,利用大模型串联起从数据供给到场景消费的全链路。
在蚂蚁集团副总裁、首席安全技术官韦韬看来, 数据要素 有着极其巨大的发展需求,以往的计算方法、数据处理方法对于数据价值的提取能力是相对较弱的,而大模型能够从海量低价值的数据中提取出大量的行业价值,进一步刺激了行业对数据的切实需求。
当下, 数据要素 的流通和利用已经有落地应用,正在进入快速发展阶段。如果类比城市的供水网络, 数据要素 流通的第壹阶段即数据孤岛,就像自家水井,企业拥有数据自研能力,自产自销;第贰阶段,实现 数据要素 点对点流通,就像桶装水,缺乏基础设施的支撑;到了第叁阶段, 数据要素 在行业和区域流转,就像城市自来水网;最后一个阶段是实现数据大范围可信流转,好比综合水利工程,实现跨行业、跨地域和跨云可信流转和互联互通。
企业实践方面,结合大模型、隐私计算等, 数据要素 技术已广泛落地在农村金融、公共服务、 新能源 产业等领域。蚂蚁集团老总兼总裁井贤栋介绍道,过去农业数字化水平低,涉农数据“孤岛化”,难以满足银行授信风控要求,难以获得信贷支持。农业农村部 大数据 发展中心与网商银行发起“农户秒贷”项目,通过蚂蚁集团隐私计算技术,安全融合多源数据,实时分析,掌握农户经营情况,手机一点就能“秒贷秒批、随借随还”。直到今天,超600万农户通过该项目获得贷款额度,累计授信964亿元人民币。
跨域流通“四难”
不可否认的是,当前 数据要素 流通正在迈向第叁阶段,即实现行业和区域间的可信流转。然而 数据要素 价值的进一步施展面临多种挑战。数据流通本质是数据的跨域使用,需要构建数据跨域管控体系,要处理的不只是数据加密传输,也包含在数据方域外完成存储、访问控制、计算、分发等等许多操作。整体来看, 数据要素 的跨域流通,面临“责任主体不清,利益诉求不一样,能力良莠不齐,责任链路难追溯”等严峻风险,造成传统 数据安全 的信任基石遭到破坏。
“数据价值具有双面性,正面的业务价值越高,造成的负面风险也越大”,韦韬解释道,数据成为要素以后,一定是跨域流动的,但这一过程存在大量的运维风险和研发风险尚未爆发,包含终端被入侵,研发人员利用架构权限获取额外信息,甚至是内部人员盗用、滥竽充数等现象,在每个环节都会出现。数据与其它要素不一样,是非常容易被拷贝、被分割、被篡改、被扩散的。
昂贵的行业风险成本,造成 数据要素 流通不畅。 数据要素 有着从数据源方到数据加工方,再经数据中间商最后来到数据消费方的一条流传链条。明文数据流通进程中,随着流传链条增长,涉及人员增多,其中一定也夹杂着黑产巨大利益诱惑。
来自IBM的《2023年度数据泄露成本站告》显示,2023年数据泄露的平均总成本达到445万美元,创历史新高;跨域泄露数据现象普遍,涉及存储在云环境中的数据比例达82%。另外,大部分机构自有安全团队不容易发现漏洞,仅有三分之一的企业是通过自己的安全团队发现数据泄露的。
也正因如此,一方面,数据容易遭非法二次分发,造成数据产品市场价值迅速贬值,造成了“不愿流通”的问题;另一方面,明文数据流通风险成本指数级增加,甚至迅速超过了流通收益,即“不敢流通”。
“出现问题的根源,就是数据从内循环转向跨域流通的外循环,就发生了外传的危险”,韦韬表示,因而构建身份可确认、利益可依赖、能力有预期、行为有后果的“可信”体系是非常重要的。正如国务院发布的“数据二十条”指出,建立数据来源可确认、使用范围可界定、流通过程可追溯、安全风险可防范的数据可信流通体系。
平衡数据价值与安全成本
推动 数据要素 价值的流通,技术创新和应用是其中的关键环节。井贤栋认为, 数据要素 要“用得好”,关键是“流得动”。 数据要素 的流通发展,已经从“水井”式的自采自用、“桶装水”式的点对点流通,快速发展为就像“城市自来水网”的行业、区域间可信流通。要走向未来更广域的可信流通,形成综合水利工程,隐私计算是务必的“管道”技术。
面对 数据安全 隐藏的种种风险,在交流中,多名业内专家向北京商报记者表示,未来更大规模的数据流通,需要更顶尖的隐私计算技术和体系化的安全架构,才能实现低成本、高性能、高安全和高可靠。好比,隐私计算服务普惠,成本要迫近明文计算;在 人工智能 技术变革下,隐私计算需要支持复杂的 人工智能 算法,助力大模型落地产业。另外,数据的流通全程务必安全可追溯,防止泄露和滥用等。
“密态计算”是一种基于密码学的隐私计算技术。在韦韬看来,密态计算是 数据要素 的必经之路,将成为突破数据孤岛、推动数据大规模可信流通的“杀手锏”,可以确保数据流通从收集、流转、计算、使用直至销毁的全链路的安全可控可审计。
当然在这一进程中,也需要平衡数据价值与安全成本。韦韬解释道,数据价值越高,对隐私要求越高,对其保护所付出的技术成本也相应上升。当为安全风险保障投入的成本基本控制在整个数据流通价值的5%以内时,就会达到规模化数据可信流通的最优平衡。
如何选定一个综合指标、构建一种市场化机制来达到这一平衡? 网络安全 险其中的“ 数据要素 流通安全险”被业内专家所提及。蚂蚁集团隐私计算部隐语总经理王磊表示,当前隐私计算领域亟须解决的一大槽点便是安全能力显性化。许多企业对于安全方面投入不足、感知不到位,造成劣币驱逐良币。这时,让企业将保险放入安全成本中,安全工作做得好,自然会被评估出更低的保险费率,由此形成良性循环。
面向未来,推动 数据要素 价值流通是一个系统性工程,需要社会各界协力合作,共同构建新的技术服务生态和技术标准体系。韦韬说道,为了确保 数据要素 流通合规、安全和高效,仍需推动全面的技术标准制定,包含数据离开运维域后的有效管控、对不同隐私计算技术进行通用安全分级,和受控环境下的数据匿名化等,并积极推动产学研界共建与合作,助力 数据要素 价值释放。
北京商报记者岳品瑜董晗萱