数据要素采集标准化如何保障
日期:2024-03-27 19:14:11   来源:荣誉资质

  4月9日发布的《中央国务院关于构建更完善的要素市场化配置体制机制的意见》(以下简称《意见》)中,首次将数据与土地、劳动力、资本、技术等传统要素并列为要素之一。《意见》具体指出,发挥行业协会商会作用,推动人工智能、可穿戴设备、车联网、物联网等领域数据采集标准化。

  “数据采集的标准化是数据存储、交易、加工及数据服务等一系列数据治理的前提,而且这件事只能由政府来主导。”中科院自动化研究所研究员、视语科技创始人王金桥表示,“数据的治理涉及政府机关、运营企业、人工智能公司、用户等方方面面,要想规范交易使用,充分的利用沉睡的数据资源,必须先从数据采集的源头来做标准化和规范化。”

  王金桥介绍,采集标准化的最大价值是解决数据采集重复建设的问题。交通保险医疗天气教育等,各行各业都在生产数据,数据采集有着很多的重复建设。比如各地有不同的采集标准,每个地方的关注点、区域特色、数据分布都不一样,对数据的诉求不一样,采集的数据也不一样,这直接引发数据的不完备、噪音大,影响数据效能的释放。

  “因此,政府驱动是很重要的。”王金桥说。比如现在出门避开拥堵靠导航软件,但导航软件依靠使用它的用户的定位信息,事实上相当于采样,结果并不可靠。去年底,交通运输部印发通知,决定开展全国高速公路视频联网监测工作,充分的利用新一代云计算和人工智能技术,建设科学先进、高效统一的视频云联网监测体系。这一监测体系将全方面提升高速公路信息化、智能化水平,提高出行服务保障能力。按照通知要求,今年12月底,将完成全国高速公路视频接入工作,建设部级视频云平台并全国联网运行。“高速公路视频上云后,全国高速公路的标准化数据都会集成到云平台,交通部门也能像气象部门提供天气预报一样提供准确的信息服务,这是充分的发挥交通数据生产力的有效手段。”王金桥说。

  由于数据治理还处在探索阶段,数据采集的标准化工作也还处于起步阶段。各行各业数字化程度千差万别,很多行业还没有实现数字化,高速公路视频上云就等于刚刚连入互联网,距离真正的数据处理和服务还很远。在国家的统一要求下,不一样的行业也需要适配各自业务和场景的采集标准。

  “更重要的是,伴随技术的进步,数据采集标准也会随之变化,标准化工作需要一个长期的逐渐完备的过程。”王金桥说,以人脸数据的采集为例,直播、售票、征信等不同场景对人脸数据的要求不同,各个场景应该要依据应用划分采集标准,如人证同一性认证、人员身份网络远程验证、人脸门禁、人脸布控等。比如依照国家制定的标准证件照的数据采集标准——中脸部宽207±14像素,头顶发迹距照片上边沿7-21像素,眼睛所在位置距照片下边沿的距离不小于207像素,按这个标准采集的证件照图像目前已经大范围的使用在机场、火车站等地的身份认证。

  另外,数据采集的边界也需要界定:什么数据能采集,什么数据不能采集;如何对隐私数据来进行规避;如何正确采集数据(比如在采集人的行为数据时必须把脸部模糊);如何平衡数据的有效和去隐私。“数据的重要性已经充分体现出来,但数据治理的问题特别复杂。数据是可以纵和改变的,数据传输特别碎片化,数据交易的利益诱惑极大……数据采集是为数据共享和交易服务的,数据的标准化要为采集划定边界。”王金桥说。