数据共享的好处显而易见,但实现它的挑战非常大,包括且不限于隐私保护、数据安全、技术壁垒以及经济限制等等。
克服困难,是人类实现进步的不二法则。《互联网法律评论》今日编译数据创新中心(The Center for Data Innovation)一篇最新的研究报告,分享给大家。
这份报告在研究了数据共享伙伴关系、数据联盟、数据信托、数据合作社、联合数据分析、合作研究与开发协议六种数据共享模型后,分别指出其优缺点,并给出了政策建议。
与大多数资源——如土地或石油——不同,数据是非竞争性的,这在某种程度上预示着当其他人使用数据时,数据的供应不会减少。数据可以被不同的实体以多种方式多次使用,而不会被耗尽。数据驱动的创新有可能成为推动进步的巨大力量,数据共享使组织可提升其控制的数据的效用和价值,并获得对别人控制的其他数据的访问权限。
但是,要实现这些好处,就需要使数据共享发挥最大潜力,以便可以有明显效果地使用数据的人能够访问数据。虽然许多组织在某些情况下共享数据,但其中许多活动都是临时的,并且很少有共享数据的最佳实践。
数据创新中心(The Center for Data Innovation)的最新报告通过评估六种不同数据共享模式的利弊,向更好利用数据的最佳实践迈出了一步,并就政策制定者如何实施或扩大某些模式的使用提出了建议。报告认为,鉴于不同的模式服务于不同的需求,政策制定者不要选择一个一刀切的解决方案,而应该在数据驱动型社会中采用“适当”的数据共享机制。
数据共享,是使其他人可以访问数据的过程,无论是在组织之间或组织内部,还是在个人和组织之间。数据共享的方式差别很大,涉及不一样及目标的参与者。以下为六种不同数据共享模型优缺点的评估结果及相应的政策建议。
数据共享伙伴关系涉及不同实体(如学术机构、研究组织、行业合作伙伴、个人消费者和政府机构)之间的协作努力,共享并交换数据以开展研究、合作开发新产品,加强基于数据分析的决策。这些伙伴关系旨在利用集体的专业相关知识、资源和多方数据,解决复杂问题并产生有价值的见解。这种类型的数据共享安排常常要明确的协议来定义数据访问和使用权,以及知识产权。
例如,在医疗保健领域,医院、研究机构和医疗提供商等组织之间的合作能够在一定程度上帮助在医疗保健研究中利用数据分析和人工智能(AI),最终改善患者的治疗效果并优化服务提供。
两个实体之间的伙伴关系是数据共享的最基本模式。政策制定者能够最终靠制作不同的合同模板(例如,数据类型、保留条款、知识产权等)来促进更多的数据共享伙伴关系,以此缓解组织启动新合同谈判的障碍。目前,新加坡等一些国家已经为数据共享伙伴关系提供了这类指导,并因此加快了研究和创新。
数据联盟允许多组织将其数据汇集起来,以使各个组织受益。数据共享伙伴关系涉及双边协议,而数据联盟则构成一系列互惠共享协议。联盟能解决特定问题,也能够适用于一般和持续信息交换。长期以来,数据联盟一直在填补数据空白方面发挥着作用。例如,临床研究数据共享联盟,通过共享整个临床开发过程中收集的数据来加速药物发明。宾夕法尼亚大学的语言数据联盟(Linguistic data Consortium, LDC),“旨在解决语言技术探讨研究和开发面临的关键数据短缺问题”,成员共享语言资源,如语音和文本数据库、词典和其他资源,这些资源在训练大型语言模型方面发挥着重要作用。
数据联盟的主要好处是它促进了更多的数据共享和聚合。因为只有给定联盟的成员才能访问数据,并且联盟成员通常必须为其做出贡献,所以数据联盟通常能够创造一个“引爆点效应”——加入集体比离开该集体更有利。一旦达到某个临界点,联盟就会确保持续的数据共享,并通常促成一个支持数据共享世界的诞生。
数据联盟确实也有一些缺点:在临界点效应发生之前,一些组织可能会更愿意将其数据储存起来供其专有使用。这在某种程度上预示着联盟在组建的初期需要仔细考虑加入有效的激励机制。
数据联盟可以为政策制定者提供更广泛和多样化的数据来源,因此建议政策制定者对特定部门内存在的数据联盟进行编目,并促进为关键领域创建新的跨部门联盟。
尽管业界对“数据信托”的定义存在冲突,但这种类型的数据共享机制的特征是相同的。数据信托的核心,是将数据权利委托给一个独立的中介机构——即受托人,受托人与研究人员、私营公司和公共部门机构做出有利于数据主体的数据共享决策。数据信托为管理和使用汇总数据提供了结构和规则,并有助于释放其对公共利益的价值。
世界各地正在试行多种不同的数据信托模式,英国对医疗保健的数据信托模型投入了特别多的资源。例如,英国生物银行管理着超过50万人的基因组数据,英国国家医疗服务体系(NHS)正在开发一个将所有健康数据(包括个人健康记录、临床数据和公共数据)聚合的集中平台。
在那些可以为社会带来重大利益的领域,政策制定者应实施特定行业的数据信托,如卫生保健、交通运输、教育和环境研究。因为整合特定行业内的数据资产将有利于全方面了解特定行业的挑战、趋势和机遇。
数据合作社是一种自下而上的数据治理形式,个人自愿将其数据汇集起来,与私营公司和其他实体进行集体谈判。数据合作社的成员建立数据共享规则,旨在使小组成员受益,其目标往往是将成员的集体数据货币化。
更重要的是,数据合作社可以赋予成员一种权力,作为集体谈判的机制,使个人获得应得的数据利益,这对提高零工经济的工人和农民的生活水平和权益都有好处,反过来,政府获得这一些数据之后,可以制定更为合理的政策、为其提供更好的服务。
然而,其中一个挑战是,数据合作社的经济效益并不总是有效。每个数据贡献者的价值可能比较小,假如没有数据持有者的广泛参与,合作社的效用就不存在。数据合作社必须仔细选择如何补偿成员——如果补偿太少,就不会有足够多的贡献者加入;如果太多,则不可持续。
当个人因为担心第三方会使用他们的数据来损害他们的利益、从而不愿意分享他们的数据时,数据合作社是有效的。在这些领域,政策制定者应该召集利益相关者讨论数据合作社在各自领域的潜在价值,以促进更大的数据共享。
联合数据分析是一种允许在组织无法或不愿共享数据时进行分布式数据分析的方法,数据在不同的位置做分析,只有分析后的见解/结果才会被带到集中的位置。通过不共享数据,联合数据分析能减轻组织访对敏感数据访问和存储的恐惧。
在某种程度上,联合分析是作为一种技术解决方案而存在的,它解决了数据收集和使用中的不信任问题,或者跨越不同企业之间共享数据的法律障碍——各国的数据保护法。然而,不应将联合分析置于高位,也不应将其视为解决数据共享困境的灵丹妙药,决策者应该为该领域的研究和开发提供资金,拓展这种能力和可能性,并确定哪些部门将从联合分析中获益最多。
合作研究与发展协议(CRADA)是政府和私营部门之间共享数据的协议,以促进研发项目的商业化。依据这一些协议,私营部门合作伙伴申请专利并保留专利权,同时确保政府获得任何商业化产品的许可证。
例如,美国国家海洋和大气管理局(NOAA)利用CRADA来利用其数据集的价值,招募IBM、微软和AWS等私营公司开发解决方案,以提高其数据的利用率和访问权限。这种伙伴关系减轻了NOAA系统和预算的负担,并为合作公司创造了新的商业机会。
许多政府机构已经在使用合作研究与开发协议,特别是在物理和医学科学领域。鉴于这种类型的数据共享协议的诸多好处,政策制定者应调研目前从这种类型的合作中哪些机构受益最大,以确定如何更好地利用合作研究与开发协议。
实现数据共享,意味着更多的人和组织可以将大量数据用来生产,从而带来创新和发现,赋予公民权力,以及决策者更好的数据驱动决策。
数据共享存在许多障碍,包括隐私和透明度问题、技术挑战和经济限制。然而,各种数据共享模型的适当应用可以克服这些障碍,并增加数据对个人、组织和政府的价值。政策制定者应该支持不同数据共享模式的开发和实施,以增加数据共享的总量,特别是在这个人工智能的时代。
作者:吉莉安•迪堡(Gillian Diebold),“信息技术与创新基金会”(ITIF)数据创新中心的政策分析师。