商业洞察
【数字经济】-智库观点·聚焦数据标注产业-创新+规范-并重打造数据标注产业运营新格局
【查看信息来源】 1-17 10:38:23编者案:最近,《关于增进数据标注产业高质量发展的实施意见》由国家发展改革委、国家数据局、财政部、人力资源社会保障部联合印发。中国经济信息社 数字经济 研究中心策划推出系列解读,从企业视角解读文件精神,搭建思想交流平台,助力数据标注产业高质量发展。
新华财经北京1月17日电数据标注是赋能 数据要素 市场化配置和价值释放的核心关键,是 人工智能 创新发展的重要支撑。《关于增进数据标注产业高质量发展的实施意见》(以下简称《实施意见》)指出要“支持建设集数据、模型、工具、场景为一体的数据标注创新平台”“建立数据标注标准体系框架”。这也意味着,以科技创新作为动力引擎,以标准规范指导公允流通,数据标准产业运营新格局正在加快建设健全。
一、强化技术科研攻关,创新标注产业运营方式
《实施意见》提出,要开展关键技术攻关。随着专业化、场景化、自动化的标注需求持续涌现,以往的劳动密集、低知识密度型标注难以满足当前业务发展需要。多模态智能化标注技术应运而生,亟需加速攻关,并通过产业技术聚集施展高质量效用。
一是要构建一整套具备先进性、前瞻性、安全性的标注工具链以满足产业发展需求。以需求为牵引创新标注技术,利用智能化、自动化标注工具提升标注产业整体工作效率,研发跨语言、跨模态语义对齐,4D标注等技术,满足自动驾驶、低空经济、脑机接口等标注产业发展的新场景、新需求。针对当前特殊场景数据规模不足的挑战,探索数据“无中生有”,加大模拟数据、合成数据等领域科研攻关。保障标注 数据安全 流通,探索 区块链 、隐私计算等加密技术在标注数据产业内传输进程中的新模式、新场景。
二是要依托标注产业施展集聚效应、溢出效应,推动技术研发创新。在产业集聚区推广应用创新性技术成果,带动周围企业承接知识溢出,吸引标注产业内上下游企业资源涌入,强化产业影响力。繁华的产业生态推动人才、资本等传统生产要素优化组合,通过重组产业内创新合作网络等方式,带动其它生产要素不断向数据这一新质生产要素集聚,加快形成新质生产力。
二、深入布局平台能力,夯实标注产业运营基础
在政策助推下,市场中公共 数据要素 、企业 数据要素 正在加速汇聚。《实施意见》指出,要缔造高水平创新载体。数据标注发展应当以前沿技术为关键节点,建立起集数据治理、标注、管理、质检、共享、共建、交易、安全、流通为一体的数据标注基础设施底座,以推动下一步场景化挖掘形成高质量产品服务。
一是要夯实基础数据治理和标注技术中台。建设能够实现多模态数据治理的智能中台,提供数据收集、存储、治理、分析的条件功能,支撑原始数据资源通过清洗、治理、转化形成干净、安全的数据集。缔造数据标注关键技术中台,通过人工标注、智能标注、专家标注、数据增强等多个环节形成具备预训练条件的标注数据集。构建数据集资产管理中台,具备数据存储蓄份、质量评估、脱敏安全处理等能力,实现数据集中间层和目录资产建设。
二是要构建多维丰富的行业数据空间。充分挖掘行业和场景需求,通过数据切块、向量化等方式形成专家知识库。面向行业专业人员,应当纵向划分特定场景上下游相关数据集。例如在交通行业中,不仅需要交通法律法规数据集、车辆行驶特征数据集,还需要将与之密切相关的城市道路建设数据、地图测绘数据等进行综合建模分析。面向综合服务者,应当横向划分多行业多场景具备关联关系的数据集。例如提供风控征信的服务商,既需要通过企业的金融信贷数据判断其征信情况,又需要通过丰富的工商、司法、通信、反欺诈等信息佐证其经营发展风险水平。
三是要缔造共享交易服务平台。要建设开发者平台,尤其是数据标注基地、龙头企业要能够为中小企业提供可订阅租用的数据集、数据技术、AI模型和开发环境,助推数据集产品、数据能力产品、大模型产品等的快速建设。并逐步加强政策保障和共享机制完善,增进内生需求推动应用市场流动的良性循环。要建设数据集、数据产品、 人工智能 大模型的交易流通平台。除隐私保护技术和 区块链 存证等可信安全要求外,还要重点关注数据集确权登记、加密鉴权的技术研发,建立形成数据集鉴权机制,通过平台下发密钥,关联设备等方式避免数据集二次非官方流通,造成数据集和能力贬值,以保证产权者、持有者、经营者、使用者多方利益。
三、贯彻落实标准制定,规范标注产业运营流通
《实施意见》强调,要健全数据标注标准。依托全国数据标准化技术委员会(以下简称“全国数标委”)建立健全数据标注标准管理体系,要持续推进标注产业的数据技术、数据产品标准化进程,为标注产业生态合作、产品市场化流通奠基基础。
一是要推动标注技术标准化,夯实产业协作技术基础。实现跨技术、跨平台标注产品互认互通,严格遵照全国数标委制定的标注技术标准规范,实现不同模态、不同类型标注产品格式对齐、质量对齐。强化标注技术联盟协作,依托全国数标委强化数据标注行业企业技术合作,联合推动技术创新,为进一步相关标准制定提供前沿探索。
二是实现标注产品标准化,建立健全价值评估体系。对标全国数标委数据集相关标准,完善数据集质量评测体系,结合市场需求和行业特色,因地制宜建设行业高质量数据集,助推 人工智能 赋能千行百业。推动标准化标注成果、数据集产品流通交易,通顺数据标注厂商、标注数据应用方、数据交易所等多机构互联互通,以有效市场为根据完善标注成果、数据集产品分类分级定价规则,推动数据标注产业公允价格体系标准化进程,实现数据标注市场化。
三是要立足标准建立个性化市场,创 新产业 发展新模式。遵循标准的条件上积极满足市场多样化、定制化需求,开拓“产品标准+按需定制”双轮驱动市场,更大水平贴合用数场景需求。丰富标注产业服务体系,将确权登记、资产入表等业务范围拓展至数据集等数据标注产品,围绕数据标注产业链条提供全流程管理咨询服务,辅助更多供数、用数主体共同繁华和发展数据标注产业。
本文作者系 中国电信 集团有限公司数据发展中心副主任(主导工作)张鑫