姜瀛
大连海事大学法学院副教授,法学博士
要目
一、问题的提出
二、网络爬虫的应用对象及其与计算机信息系统数据的关系
三、网络爬虫的应用类型
四、刑法规制网络数据爬取行为的路径重塑
结语
一、问题的提出
网络爬虫是一种互联网信息自动采集技术。在“数据为王”的时代,利用爬虫技术爬取数据已经成为直接采集用户数据之外常规的数据挖掘途径。事实上,对于爬虫技术的应用,我们并不陌生,搜索引擎即是爬虫技术的典型例证——在技术上属于针对不特定网站的“通用爬虫”(general purpose web crawler)。实践中,容易引发法律争议问题的是另一类爬虫,即针对特定主题或单一网站进行数据爬取的“聚焦爬虫”(focused web crawler,也称“定向爬虫”或“主题爬虫”),本文的研究对象正在于此。
近年来,网络爬取数据行为引发的争议问题越来越多,“晟品公司利用网络爬虫抓取数据”一案(以下简称“晟品案”)便引发学界的广泛关注。有肯定观点认为:“被告采取突破被害人反爬安全措施的技术手段,未经许可进入计算机系统获取数据,构成非法获取计算机信息系统数据罪。”另有学者指出:“行为人未经许可,强行突破反爬技术,侵入‘国家事务、国防建设、极端科学技术领域’之外的计算机信息系统,并采用爬虫技术获取该系统内的数据,其行为可构成非法获取计算机信息系统数据罪。”当然,也有观点对本案的判决结果提出质疑,主张“被告人破解被害人设置的防抓爬措施并不等同于侵入被害人的计算机系统”。该案中,“强行突破反爬措施来爬取数据”的刑法定性成为定案的关键问题。进而言之,这一问题又可细化为三个层面。其一,利用爬虫技术爬取的数据具有哪些特征,突破反爬措施后所爬取的数据在性质上是否发生了实质变化;其二,如何解释非法获取计算机信息系统数据罪中的“计算机信息系统数据”;其三,突破反爬措施所爬取的数据与非法获取计算机信息系统数据罪中的“计算机信息系统数据”是否属于同一范畴。本文尝试探讨刑法规制网络爬虫的类型与边界,最终确立刑法介入大数据产业的合理路径。
二、网络爬虫的应用对象及其与计算机信息系统数据的关系
网络爬虫的应用对象及其技术特征分析
首先,从技术原理上讲,爬虫可按照预先定义的爬取主题在给定初始“统一资源定位符”(uniform resource locator,简称url)种子集后,根据一定算法爬取数据并进行分析,并在抓取数据过程中不断将新的url放进待爬行的url队列中。而url作为从互联网上获得资源的位置和访问方法的简洁表示,是完全开放的,爬虫解析url与普通用户访问在技术上并没有区别。网络爬虫实际上是在“客户端”或“客户端与服务器端的接口”进行数据获取操作的,通过模仿普通用户正常发送数据请求,等待服务器向其传输数据后在客户端爬取数据。易言之,网络爬虫只不过是一种可以更高效地收集并处理客户端数据的技术而已,其并不是什么“黑客技术”,单纯利用爬虫技术不可能获得任何进入后台的权限或机会,不能将之视为非法侵入计算机信息系统的程序或工具。
其次,反爬措施是指利用某种技术手段阻止他人利用爬虫技术大规模访问自己客户端的方式,“ip访问量限制、session访问量限制、user-agent限制以及设置登陆验证码”都属于实践中常见的反爬措施。从技术上讲,被爬取方所设置的反爬措施,均属于前端代码。即使突破反爬措施,爬取方也并未进入被爬取方的服务器,因而不会威胁到被爬取方的计算机信息系统安全。突破反爬措施意义在于爬取方规避了“访问限制”,也即伪装成普通用户非法获得了“访问资格”。无论是对于无视网站设置“robots协议”随意抓取网站数据的行为,还是对于突破反爬措施抓取数据的行为,我们所要判断的仍然是数据的性质。事实上,上述无视“robots协议”甚至是突破反爬措施而违规爬取数据的行为,其爬取对象仍然是客户端数据。本质上来讲,被爬方设置反爬措施的目的在于防止大规模的机器访问并获取数据,但对于普通用户(个体)而言,访问网站或app显然是允许的。
“计算机信息系统数据”的规范解读
从司法实践情况来看,《中华人民共和国刑法修正案(七)》(以下简称《修七》)增设的“非法获取计算机信息系统数据罪”逐渐成为刑法规制网络爬虫的重点罪名。在对刑法规制网络爬虫的司法实践进行反思的过程中,我们有必要明确该罪的法益定位,尤其要对“计算机信息系统数据”作准确解读。
一方面,从立法目的层面来看,《修七》之所以增设非法获取计算机信息系统数据罪,是因为一段时间以来不法分子(黑客)大肆非法侵入他人计算机信息系统并非法获取计算机信息系统中储存、处理或传输的数据,具有明显的社会危害性,而我国《刑法》之前并没有将此类行为作为犯罪加以规定。正是为了规制上述行为、弥补法律漏洞,立法机关增补非法获取计算机信息系统数据罪,该罪所针对的对象是使用中的计算机信息系统中存储、处理、传输的数据,这有利于更为全面地保护计算机信息系统安全。事实上,计算机信息系统数据的控制者均会采取特定的安全保障措施,确保计算机信息系统的访问权限仅向特定主体开放,而对其他主体默认为关闭。因此,从违法性角度来讲,是否获得计算机信息系统控制者的权限授予,成为判断进入计算机信息系统并获取数据的行为是否具有违法性阻却事由的主要依据。具体来看,违法获取计算机信息系统数据可包括“侵入计算机信息系统并获取计算机信息系统数据、未经授权‘擅入’或超越权限获取计算机信息系统数据及采用其他技术手段非法获取数据”三种形态。
另一方面,从体系解释角度来讲,计算机信息系统所具有的独特的技术属性以及虚拟空间特有的安全诉求,决定了《刑法》第285条专门设置罪名并将之体系化的必要性,而这种体系化整合的可行性源于罪名之间法益定位的一致性。显然,《刑法》第285条第二款非法获取计算机信息系统数据罪与该条第一款非法侵入计算机信息系统罪保护的法益应当是相同的,均为计算机信息系统安全;否则,罪名设置的体系安排难以自恰,违背基本的立法逻辑。因此,该罪中非法获取的对象,应当是危及到计算机信息系统安全的数据。换言之,因为非法获取计算机信息系统数据可能会破坏计算机信息系统安全或者是造成了危险隐患,所以立法者才增设了“非法获取计算机信息系统数据罪”予以规制。
此外,还需要说明的是,该罪中所规定的“或者采用其他技术手段”,其更多程度上是一种兜底条款,无论基于何种解释立场,“采用其他技术手段”所能达到的效果也应当是“侵入前款规定以外的计算机信息系统”。如果单纯利用爬虫技术以及突破反爬措施不能非法侵入服务器端的计算机信息系统,那么,爬虫技术以及突破反爬措施便不属于“其他技术手段”。
将网络爬虫爬取数据解释为“计算机信息系统数据”的路径与困境
从技术层面来讲,突破反爬措施并不能侵入被爬取方的计算机信息系统,获取的仍然是客户端数据。不过,可否通过对“计算机信息系统数据”的解释,实现将客户端一般数据涵摄于“计算机信息系统数据”之下的效果呢?笔者认为,对于“计算机信息系统数据”存在两种不同的解释路径,即“控制性标准”与“技术性标准”。
“控制性标准”以“保护数据控制权”作为解释的核心坐标,侧重数据权利人主观上对数据的控制意愿,该标准可能扩大“计算机信息系统数据”的认定范围。申言之,数据控制权利人设置反爬措施表明了其不希望数据被竞争对手爬取的控制意愿,权利人控制数据的主观态度与立法者对于“计算机信息系统数据”的严格保护意愿在一定程度上是相通的。也即,依托于“控制性标准”,网络爬虫所获取的、由反爬措施所保护的数据,系数据权利人所要控制的数据,因而可以解释为“计算机信息系统数据”。
不过,以“控制性标准”为依据的解释思路面临“技术性标准”的质疑。“技术性标准”源于非法获取计算机信息系统数据罪的立法背景,强调以计算机信息系统的技术性风险作为解释坐标,侧重准确评价计算机信息系统安全是否遭受到威胁,可以限制“计算机信息系统数据”的范围,避免刑法的不当扩张。若是依据“技术性标准”,那些未侵入计算机信息系统而获取的数据或者是未威胁到计算机信息系统安全而获取的数据,在技术上不会对计算机信息系统带来任何危险,并不符合非法获取计算机信息系统数据罪的立法预期与法益定位,因而不应被纳入到该罪的规制范围。由于单纯的突破反爬措施并不能侵入计算机信息系统,不会给计算机信息系统带来任何危险,难以被解释为“计算机信息系统数据”。
三、网络爬虫的应用类型与刑法规制的边界反思:基于典型判例的分析
爬取违法数据:直接构成犯罪
利用爬虫技术获取数据的行为,只要数据本身属于刑法特别保护对象,爬取行为即可获罪。其中,爬取“公民个人信息”是司法实践中最为常见的涉罪情形,“马某编写爬虫程序窃取网站用户个人信息”一案、“谢财安等盗取京东商城卖家账号、密码后利用爬虫技术(“smarttool”软件)非法获取用户个人信息”一案、“魏江蒙通过‘网络爬虫’程序下载工商个体户资料”一案,都是属于利用爬虫技术非法获取公民个人信息的案例。当然,上述案件与以其他方式非法获取公民个人信息的案件差异性不大,法律适用中争议问题也不多。
不过,在“李威侵犯公民个人信息”一案中,部分案件事实认定与法律适用存在争议。该案判决书指出:“被告人李威在北京某公司任职期间,抓住系统漏洞直接访问服务器端后台,利用‘八爪鱼软件’(一种常见的爬虫软件)获取客户个人信息数据。”对于这一部分事实,判决书认为:“被告人李威作为某公司员工,通过自动化软件收集公民个人信息的行为不具有非法性,并未违反国家有关规定。”因此,法院仅认定了李威(在上述事实之外)实施的在网上以购买和交换等方式非法获取公民个人信息的行为,构成侵犯公民个人信息罪。该案的疑问在于,李威作为公司的高级管理人员,享有获取或保存公司用户个人信息的权限,因而其获取公司用户个人信息的行为并不具备违法性。但李威获取个人信息是利用了系统漏洞进入后台,即非法访问服务器系统,因此,其所获取的数据在性质上又属于服务器后端存储的系统数据,故李威的上述行为符合非法获取计算机信息系统数据罪的构成要件。概言之,本案在核心事实认定上忽视了数据的两面性,即数据本身可能同时具备公民个人信息属性与计算机信息系统数据属性。需要强调的是,本案中行为人利用爬虫技术只是提升了数据获取的体量与速度而已,爬虫本身对本案的定罪并没有产生实质影响。
此外,司法实践中还存在一种较为特殊的类型。行为人可能在约定的数据用途范围之外,再次私自使用上述数据并利用爬虫技术从事其他非法牟利活动。事实上,上述违背数据控制者意愿、超越约定用途再次利用计算机信息系统数据的行为也可以解释为“非法”获取控制者所专有的计算机信息系统数据。“北京瑞智华胜公司非法获取计算机信息系统数据”一案就属于此类案例。该案判决书指出:“北京瑞智华胜公司通过其他关联公司与运营商签订精准广告营销协议,获取运营商服务器登录许可;该公司后利用研发的爬虫软件、加粉软件,远程访问redis数据库中的数据,非法登录网络用户的淘宝、微博等账号,进行强制加粉、订单爬取等行为,从中牟利。”该案中,涉案公司与运营商签订精准广告营销协议,自然就获取运营商服务器访问权限,并可以依约使用用户登录cookie数据。然而,涉案公司只能基于约定(精准广告营销协议)在特定范围内使用上述用户登录cookie数据。即使涉案公司并不存在非法侵入或超越权限访问的实质行为,但其违背数据控制者意愿、超越约定用途再次利用计算机信息系统数据的行为,仍然可以构成非法获取计算机信息系统数据罪。当然,利用爬虫技术对于本案的定罪并没有产生实质影响。
突破反爬措施爬取一般数据:刑事违法性的具体分析
在“晟品案”中,判决书认为“被告人在数据抓取的过程中采取了绕过或突破受害单位反‘爬虫’安全措施的技术手段,未经许可进入受害单位的计算机系统,构成非法获取计算机信息系统数据的犯罪行为”。事实上,该案中行为人使用伪造device_id、使用伪造ua及ip绕过服务器的访问频率限制,都是突破反爬措施的常见方式;突破反爬措施仅仅是伪装成普通用户获取访问资格并获取数据,并不能进入被访问方的计算机系统。该案裁判者撰文进一步指出,“可基于实质性解释立场,将破坏前置的访问程序限制后实现访问并抓取数据的行为解释为非法获取计算机信息系统数据行为”。如前所述,爬虫技术实际上是在客户端进行数据获取操作的,而计算机信息系统数据所指的是服务器端的数据。具有开放性的客户端与强调私密性并且在安全性上具有极高要求的服务器端,系同一位阶下完全对立的范畴,犹如“户外”与“户内”。即使考虑到社会发展的客观情况,这两个对立范畴并没有发生任何变化,难以通过实质解释来跨越二者之间的技术“鸿沟”。
此外,“武汉元光科技利用网络爬虫抓取数据”一案(以下简称“元光案”)也存在类似的法律适用问题。该案判决书指出:“被告人邵凌霜为提高智能公交app‘车来了’的用户量和准确度,授意数名员工利用网络爬虫软件获取包括谷米公司在内的竞争对手公交车行驶信息等实时数据,日均300万至400万条,造成谷米公司直接经济损失24.43万元人民币。”最终,法院认为上述行为系“违反国家规定,采用其他技术手段获取计算机信息系统中储存的数据”,构成非法获取计算机信息系统数据罪。事实上,该案同样将突破前端反爬措施后爬取客户端数据的行为认定为非法获取计算机信息系统数据的行为,一方面,判决书表述“元光公司人员不断更换爬虫软件程序内的ip地址并利用所设置的不同ip地址向酷米客发出数据请求”,说明元光公司实际上只是伪装成一般用户来获取客户端的实时数据;另一方面,判决书同时又认为“元光公司非法获取公交车行驶信息、到站时间等实时数据是位于谷米公司的服务器数据”,但实际上,通过更换ip的方式表明,元光公司人员就是为了伪装成一般用户进行访问,显然并未进入爬取方的后台服务器。若严格采取“技术性标准”作为“计算机信息系统数据”的认定依据,该案同样难以成立非法获取计算机信息系统数据罪。
从上述典型案例来看,在面对信息网络新型违法犯罪问题时,司法机关更倾向基于刑事政策上的考虑,通过刑法的“软性解释”来扩张处罚范围,以彰显刑法及时回应新型问题的社会效果。将“控制性标准”作为刑法规制网络爬虫的实践依据,突破反爬措施爬取的数据便被“软性解释”为计算机信息系统数据,非法获取计算机信息系统数据罪便成为刑法规制爬虫技术的“救火式”罪名。
利用爬虫技术“野蛮”访问:可能构成破坏计算机信息系统罪
从技术层面看,爬虫技术最主要的功能特征在于数据获取的高效性。在单位时间内,网络爬虫“大规模机器访问”的访问数量是普通用户访问(人工访问)无法相比的。不过,大规模机器访问与同等数量的普通用户访问(人工访问)却会引发同样的效果,即增加网络服务提供者的运营负担。
实际上,网络服务器是有承载限度的,频繁的大规模机器访问占用了原本服务器用于向普通用户返回数据的带宽和运算能力,如果不加控制地利用爬虫技术持续访问,实际上会影响到网络服务的正常运行,甚至使网站崩溃而无法访问,这也会影响到普通用户的正常访问。不加控制地利用爬虫技术持续访问的行为,可能构成《刑法》第286条规定的“破坏计算机信息系统罪”。其实,不加控制地利用爬虫技术持续访问行为的构罪技术路径与“ddos攻击”具有相似性,也即发送大量看似合法的访问请求,造成网络阻塞或服务器资源耗尽,从而导致普通用户无法正常访问网络资源,造成被访问方服务器瘫痪而无法正常运行的,可以被解释为“功能性破坏”,构成破坏计算机信息系统罪。
四、刑法规制网络数据爬取行为的路径重塑
新型网络不正当竞争行为引发的刑法困境
通常而言,企业的数据来源包括“用户数据、全网抓取数据、通过数据众包形式获得、通过合作协议方式获得以及购买数据”等不同类型。为了形成大规模的数据沉淀,经营者往往要投入较高成本、提供免费服务来吸引用户;为了维持用户体量,后期仍然需要稳定投入。行为人付出极高成本挖掘出数据价值,自然会想尽办法确保其数据权利不受他人侵犯。爬虫技术让某些人不劳而获,“抢夺”了本来应该通过支付对价所获取的或者是根本无法获取的数据资源,确实属于一种不正当竞争行为。
有学者认为:“从爬虫行为反不正当竞争案到全国首例爬虫行为入罪案,展现了爬虫行为从民事违法到刑事违法的司法认定过程,它充分体现了我国司法实践对爬虫行为的态度。这一过程充满司法理性。”然而,在本文看来,这种“爬虫行为从民事违法到刑事违法”的“变性”过程,并没有呈现出民事不法状态与刑事违法的实质区别,反而将突破反爬措施误读为民刑分界的标准。可以预计,在信息技术与社会发展快速融合的过程中,新型网络问题不断涌现出来,其中既包括新型技术性违法问题,也涉及在组织结构或行为方式出现变化的新型网络违法业态,尤其是技术性问题与新型违法业态相互结合,冲击到学者与实务部门的传统认知,挑战现有的刑法体系。回应新型社会问题的过程中必然会出现刑法规范的供给不足,理性的司法犯罪化可以在一定程度上应对日益复杂化的社会状况,缓解刑法规范供给不足的压力。不过,对新型网络违法行为实质内涵的把握以及对其可能侵犯法益的认定均存在较大难度,司法中“找法”的解释技术与法治边界将成为难点问题。
刑法规制网络爬虫的二元结构——直接介入模式与事后介入模式
本文认为,面对突破反爬措施获取数据的行为,应在理论上建构起二元化的规制结构,也即以数据本身的刑事违法性为标准,划分出“刑法直接规制”与“刑法事后介入”两种模式。其中,“刑法直接规制”,即刑法可以直接适用于利用爬虫技术获取“公民个人信息”等数据的行为。这里重点探讨的是“刑法事后介入”的路径选择。
本文所倡导的“刑法事后介入”,是指针对突破反爬措施爬取客户端一般数据的行为,应尽力避免采取“软性解释”,而应首先寻求民事救济,而这种民事救济的重点在于利用“行为保全”措施禁止相关行为人抓取数据;在此基础上,对于仍然违反“行为保全”裁定而抓取数据的行为,可以适用我国《刑法》第313条“拒不执行判决、裁定罪”予以规制。也即,形成一种“民事措施(行为保全)前置”与“刑法事后介入”相结合的递进模式。
国内首例“涉及爬取数据的行为保全案”为我们提供了理想的实践样本。面对突破反爬措施爬取数据的不正当竞争行为,被害方完全可以先凭借行为保全获得及时的权利救济。行为保全前置具有两个方面的积极意义,一是可以及时制止违法的抓取数据行为,快速停止损害;二是合理且必要地确立受限行为的范围,避免对合理的数据挖掘行为产生负面影响。作为一种民事裁定,行为保全应属于《刑法》第313条“拒不执行判决、裁定罪”所保护的文书类型。只不过,最高人民法院于2015年7月20日发布的《关于审理拒不执行判决裁定刑事案件适用法律若干问题的解释》并没有专门针对违反行为保全裁定后所应达到的“情节严重”入罪标准做出专门规定。考虑到新型网络不正当竞争行为屡禁不止,且变化快速,最高司法机关有必要针对违反“行为保全”裁定的情形,确立相应的入罪门槛。
结语
围绕利用网络爬虫技术非法爬取数据的相关问题所展开的刑法思辨,为我们诠释了传统刑法观念与司法逻辑在回应“新生问题”时的挑战。即使在开展数据安全专项整顿的大背景下,网络爬虫具有技术中立性,我们也不能将爬虫技术过度地“妖魔化”;我们所要评价的对象并不是技术本身,而是爬虫技术所针对的数据。在多数情况下,对于客户端的一般数据,即使行为人突破了数据控制者所设置的反爬措施,该行为也不具有刑法上的违法性。刑法的不当介入,不仅会对日后的司法实践做出错误引导,还会引发大数据行业的恐慌。面对与社会发展相伴相生的新型问题,为了不被错综复杂的案件事实和形形色色的行为手段扰乱思路,司法者需要提炼违法行为的本质属性,也即,首先要准确认知对象问题、做好基础定性,此后方能在治理对策上作出进一步思考,而刑法层面的对策思考应被置于最后。
原文链接
姜瀛 | 论刑法介入网络数据爬取行为的类型与限度
《浙江社会科学》简介
《浙江社会科学》(月刊)是浙江省社会科学界联合会主办的综合性社会科学学术期刊,是首批国家社科基金资助期刊、全国中文核心期刊、全国人文社会科学核心期刊、中文社会科学引文索引(cssci)来源期刊。杂志社通过此公众号推送本刊最新目录和学术文章。
上观号作者:上海市法学会