盈科原创丨以“启信宝”APP为例谈数据自动化采集合规
日期:2024-02-28 18:21:57   来源:常见问题

  数据收集一般有主动采集、自动化采集、向第三方购买三种方式,上一期我们介绍了主动采集的合规要点。自动化采集涉及网络爬虫以及同类软件的合法使用,往往是数据合规的焦点和难点。本期我们将以上海合合信息科技股份有限公司(以下简称“合合信息”)开发的“启信宝”APP为例讲解自动化采集数据的合规风险和要点。

  上海合合信息科技股份有限公司成立于2006年8月8日,旗下拥有启信宝、名片全能王、扫描全能王等多款热门工具类APP。根据互联网公开信息数据显示,合合信息主要是通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案为全球企业和个人用户更好的提供创新的数字化、智能化服务。2021年9月27日,合合信息向上交所递交科创板上市申请,目前正在上市审核过程中。

  合合信息自动化采集的网站主要为全国各工商网站、各省律师事务所信息公开披露网站、各省社会组织信息网、各级人民银行官网,主要是政府机构等公开信息披露的平台。

  (一)数据采集前完成合规评估:包括获取数据的主要类型、被采集网站是否为政府公开信息网站或商业性网站、被采集网站是不是具备 Robots 协议或公示条款限制自动化采集、网站是不是具备自动化采集限制措施、自动化采集数量及频率影不影响采集对象网站的正常运行等核心因素。

  (二)企业内部明确外部数据自动化获取的管理流程:由需求部门、数据采集团队和法务进行审核后实施。

  (三)按时进行检查被采集网站的规定是否变化:公司制定了相关的管理制度及流程以管理自动化访问工具。通过对自动化访问工具的代码扫描,以识别是不是真的存在正在运行的自动化访问工具所实际爬取的网站范围超出公司自行维护的自动化访问网站清单的情况。

  (四)聘请律师事务所提供企业数据管理及信息系统合规相关的法律服务并出具《关于上海合合信息科技股份有限公司数据安全管理的尽职调查报告》。

  网络爬虫技术(WebSpider,也称网络蜘蛛)的本质是通过浏览指定的网络页面,根据事先编辑好的规则抓取、处理、融合相应网络内容,再将该内容做备份、建立索引并存储到自己的服务器中。爬虫技术最早是网络搜索引擎的关键性技术,在后期不断地技术迭代中,又细分为聚焦网络爬虫(Focused WebCrawler)技术、增量式网络爬虫(Incremental WebCrawler)技术和深层网络爬虫(Deep WebCrawler)技术等,使得爬虫技术慢慢的变成为大数据公司或者SaaS类服务公司等新型互联网公司的宠儿。

  当目标网站拒绝全部或者指定的网络爬虫时,网站服务商或所有者可以在网站程序的开始部分写入一段代码,即robots.txt文件,以此标示限制搜索引擎爬虫机器人访问的信息:User-agent:用于说明搜索引擎网络机器人的名字;Disallow:用于说明不希望被抓取的网页或目录;“*”代表所有网络机器人;“/”代表所有目录;以“新浪微博”为例,其Robots协议设置如下1:

  根据“爬虫协议内容,微博运营者列明了只允许包括百度、360等八个搜索引擎网络机器人爬取网站内容,其他的网络机器人禁止爬取所有内容;所有的爬虫都可以爬取ads.txt文件(该文件用于规避和防止广告欺诈和域欺骗)。

  根据我们对近年来涉及爬虫技术案件的梳理,我国法院往往以技术中立为原则,在不否定爬虫技术的合法性的前提下,对爬虫技术的设定和使用设立了严格的界限。我们大家都认为,一种原因是出于鼓励大数据产业高质量发展和打破数据孤岛考虑,另一方面,不当使用爬虫技术则会造成侵权事件。因此,企业在采用爬虫技术采集数据时应当注意以下风险:

  如前文所述,我们理解,Robots协议虽然名为“协议”,仅是一种网站程序编写的技术规范,并非法律意义上的协议或者合同,但在我国司法实践中,法院更愿意将其认定为一种约定俗成的商业道德。根据《反不正当竞争法》第二条第一款的规定:经营者在市场交易中,应当遵循自愿、平等、公平、诚实信用的原则,遵守公认的商业道德。因此,违反robots协议爬取数据虽然不会造成合同纠纷,但很有可能会由于违反商业道德被认定为不正当竞争。比如在四川高院发布的2020年四川法院知识产权司法保护十大典型案例中2,字节跳动公司因未遵守Robots协议,大量抓取了腾讯公司及其关联的微信平台的数据信息,成都市中级人民法院审理认为,字节跳动公司通过规避他方对robots.txt文件的设置而抓取大量数据信息,其行为违反了商业道德及诚实信用原则,具有不正当性。

  另外,目前市面上较为流行的企查查、天眼查以及合合信息旗下的启信宝等企业信息聚合平台,通过爬虫技术采集各个政府机构等平台和网站的信息,并经过信息加工最终给用户更好的提供一个全面的企业画像服务,如果由于数据采集质量上的问题导致数据失真最终造成“被画像”企业名誉受损的,数据采集企业将会被认定为商业诋毁从而承担法律责任。比如,(2020)浙01民终4847号案件中,苏州朗动网络科技有限公司运营的企查查未审慎处理从国家企业信用信息公示系统中爬取出来的数据,错误披露蚂蚁微贷公司清算信息,最终一、二审法院均认定为构成商业诋毁和不正当竞争。

  根据合合信息的首轮问询回复,其在数据采集前会针对被采集网站的是不是具备Robots协议或公示条款限制自动化采集、网站是不是具备自动化采集限制措施、自动化采集数量及频率影不影响采集对象网站的正常运行等核心因素进行评估。

  我们理解,相比于忽略robots协议内容,更值得引起重视的是,若利用技术措施伪装或者绕开目标企业的反爬虫设置进行数据爬取的,可能会直接触及刑法第285、286条规定的涉嫌非法侵入计算机信息系统罪、非法获取计算机信息系统数据罪、破坏计算机信息系统罪。例如2016年“车来了”通过爬虫伪装成乘客对深圳市谷米科技有限公司推出的实时公交查询软件“酷米客”进行长达两年时间的不间断爬取,最后导致“车来了”所属的武汉元光科技有限公司多位高管被认定为非法获取计算机信息系统数据罪予以刑事追责。

  合合信息特别说明了其爬虫脚本运行前,数据技术人员结合“Alexa”数据评估目标网站一天的总访问量,以此计算自动化访问程序每秒的访问频率上限,并在自动化访问程序配置阶段对并发数和访问频率进行适当的限制。如果通过爬虫技术导致“被爬取方”的网站因负荷满载而无法访问,“爬取方”可能会涉嫌违反《刑法》第286条的规定构成破坏计算机信息系统罪。比如在(2019)粤0305刑初193号案件中,被告人开发的爬虫软件以每秒183次的频率访问访问“深圳市居住证系统”,导致“深圳市居住证系统”停止运行超过2小时,被认定构成破坏计算机信息系统罪并判处有期徒刑。

  根据《网络数据安全管理条例(征求意见稿)》第17条第1款的规定,数据处理者在采用网络爬虫等自动化工具访问、收集数据时,应当评估对网络服务的性能、功能带来的影响,不得干扰网络服务的正常功能。同时,根据《数据安全管理办法(征求意见稿)》第16条规定,如当采用爬虫技术访问收集流量超过网站日均流量三分之一时,可能会被认为极度影响网站运行。因此,我们提议,企业在通过爬虫等自动化工具爬取数据时,应当在事前做评估,评估内容主要包括:

  除了事前评估,由于网站robots协议的设定以及网站的流量、内容等不具有确定性,我们提议在启动爬虫工具后应当设置定期审阅、评估和校准程序,持续的跟踪自动化采集数据的合法合规性问题。

  另外,为避免数据瑕疵等问题,我们提议企业应该采取技术措施,交叉比对和验证通过爬虫采集的数据质量,定期评估和调整验证基准,尽量爬取政府官方公开数据源,避免因为数据失真导致的进一步侵权风险。

  ②腾讯科技(深圳)有限公司、深圳市腾讯计算机系统有限公司、腾讯数码(天津)有限公司与北京字节跳动科技有限公司、成都天翼空间科技有限公司不正当竞争纠纷案。

  擅长领域:公司法律风险管理、民商事诉讼、公司股权管理、并购重组、公司改制重组、项目收购。

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  上海浦东支持外籍人才任事业单位、国企法人代表!法学专家:在法律资格上没有一点问题

  为什么管不住学生?这7点内容,能帮新老师找到原因,然后有明确的目的性地做调整就行!

  联想2024款GeekPro台式机首销6099元起:i5-14400F+RTX4060

  华硕推出 34 英寸 2K WQHD 曲面带鱼屏电竞显示器:原生180Hz高刷

  华硕 ROG 幻 14 Air 2024 游戏本海外上市,采用 AMD R9 8945HS