网络爬虫的入罪标准（一定要看）

网络爬虫（Web Crawler），又称网络蜘蛛或者网络机器人，是一种按照一定规则自动抓取互联网信息的程序。在大数据时代，网络爬虫已成为互联网抓取公开数据的常用工具之一，可以实现对文本、图片、音频、视频等互联网信息的海量抓取。

虽然网络爬虫作为一种技术，但近些年由于网络爬虫技术带来的诉讼纠纷却引发了学界在私法层面对大数据权益属性、权益分配的诸多法律争议，以及在公法层面对网络爬虫刑法规制路径的诸多探讨。对网络爬虫的刑法规制既影响到当前数据产业的资源利用和技术创新，也影响到国家决策层对数据行业的政策制定。因此，以何种标准、何种路径来确定网络爬虫的入罪范畴，是当前我国数字经济发展亟须解决的难题。

网络爬虫的危害性

网络爬虫虽具有技术中立性，但在目前的数据产业中仍涉及多重法律风险，主要体现在：

技术风险

抓取太快或太频繁易导致ICP（网络内容服务商）网站拥堵，影响服务器正常运行甚至导致服务器瘫痪，或者重复抓取相同文件易耗费服务器资源等，因此产生了一些协议来缓和网络爬虫的抓取行为，告知搜索引擎所允许和禁止抓取的范围。当前，“爬虫协议”成为国内外互联网行业普遍遵循的技术规范。

法益侵害风险

抓取ICP网站管理后台等内部数据易侵犯个人信息、商业秘密等数据信息安全。美国公众舆论研究协会的研究报告指出，网络爬虫的数据抓取行为对数据所有权、数据管理、数据收集权、隐私保护以及其他数据保护提出了政策挑战。这主要表现在：

1) 政府使用网络爬虫抓取个人数据侵害公民宪法权利。由于网络爬虫可以轻松抓取显示网络用户政治、宗教和其他观点的数据信息，一些国外政府机构已经采用网络爬虫来收集网络论坛、个人博客、Twitter、Facebook和Tumblr等社交网站或Craigslist等公告板的数据，甚至从集会团体的网站收集数据来确定集会者的数量，并识别、追踪特定集会者等。这些行为都可能侵犯公民受宪法保护的言论自由、结社自由甚至隐私权等。

2) 数据公司或研究机构使用网络爬虫抓取用户个人数据，侵犯了用户的隐私权、信息权等。不少数据企业从个人博客、社交媒体网站、论坛和其他用户可以谈论、公开其身份或偏好的网站收集大量用户数据信息，但很少有规则来说明可以抓取什么、何时何地抓取以及如何存储、利用所抓取的用户数据。

网络爬虫入罪的判断标准

网络爬虫入罪的关键在于访问、抓取数据行为是否获得许可、授权，“未经授权”或者“超越授权”访问、抓取数据可能侵犯网络安全或者各类数据安全。网络爬虫客观上有突破数据保护措施的行为，行为人主观上有突破数据保护措施的故意，这是网络爬虫入罪的基本标准。

不法判断：未经授权或超越授权

“未经授权”是指网络爬虫根本就没有获得数据网站的授权机制许可；“超越授权”是指网络爬虫超越了被授权范围访问、获取数据，包括平行越权、垂直越权。其中，平行越权是指一个网络用户越权访问了另一个网络用户才能访问的资源；垂直越权是指低权限角色的用户获得了高权限角色所具备的权限，典型的是黑客通过修改Cookie或者参数中隐藏的标志位，从普通用户权限提升到管理员权限。

但是，对于“未经授权”或者“超越授权”不能仅作形式判断。如果单纯依据强行突破账号登录系统来进行入罪判断，易导致技术授权和规范授权的判断分歧。不能简单地以是否需要账号登录来判断网络爬虫是否“未经授权”。对此，还必须结合被抓取的数据类型来进行实质违法性判断，考察网络爬虫抓取数据行为对法益的侵害或者威胁是否达到实质可罚的程度。

责任判断：具有访问、抓取数据的恶意

网络爬虫的入罪判断除了考察客观不法外，还必须对主观罪责进行判断，即考察主观上是否具有突破网络安全、数据安全保护措施并访问、获取相关数据的故意。网络爬虫可分为善意的网络爬虫和恶意的网络爬虫。善意的网络爬虫会遵守Robots协议，能够增加网站的曝光度，给数据网站带来流量；而恶意爬虫则无视Robots协议，甚至采取破解措施对数据网站中某些深层次的、不愿意公开的数据随意抓取，导致网站服务器过载或崩溃，影响计算机信息系统的正常运行。显然，恶意网络爬虫认识到突破数据网站技术措施的行为违背了权利人的保护意愿，仍基于自由意志而选择继续爬取数据，足以证明其具有犯罪故意。

在我国现有法律框架下，“白帽子”侵入网站并抓取数据行为的合法性备受争议，易被认定为非法获取计算机信息系统数据罪。“白帽子”通常不会破坏他人计算机信息系统，而是出于探索、实验新技术等主观目的，甚至出于善意，希望帮助他人发现和改善系统缺陷和漏洞，以提高计算机和网络系统的安全性能。虽然“白帽子”所使用的测试软件通常具有自动缓存数据的功能，但依行业惯例，抓取数据的行为是安全漏洞检测必经的步骤，对于那些存在事先授权、事后认可、行业默契认可的“白帽子”抓取数据行为，因缺乏法益侵害性和主观罪过，应依照国际惯例和国内行业规则，作为保护网络安全的正当化事由予以出罪。

网络爬虫入罪的具体路径

从技术原理来看，网络爬虫抓取数据涉及对计算机信息系统的访问进入、对特定类型数据的抓取、对所获取数据的使用三个阶段，因此，网络爬虫的入罪路径必须结合其具体行为进行情景化分析。

非法侵入行为可构成非法侵入计算机信息系统罪

网络爬虫进入数据网站是访问、抓取数据的前提。但如果未经授权进入涉及国家安全和国家秘密的政府内网、国防建设、尖端科学技术领域的计算机信息系统，则可构成非法侵入计算机信息系统罪。这取决于被侵入的计算机信息系统的性质以及访问是否被授权。

非法抓取数据可能构成多种犯罪

随着数据表征权利客体的多样化，网络爬虫未经授权或超越授权抓取数据行为，依据被抓取数据所表征的不同法益，可构成不同罪名。

1、抓取“可识别性”个人数据，可构成侵犯公民个人信息罪。大数据时代，多数公民的个人信息都是以电子数据的形式存储于计算机信息系统或者网络之中，易被网络爬虫抓取。个人信息区别于普通数据的最大特征在于其与信息主体存在某种关联性、专属性，能识别特定个人，具有侵犯信息自决权的隐忧。根据我国刑法第二百五十三条之一第三款规定，窃取或者以其他方法非法获取公民个人信息的，构成侵犯公民个人信息罪。

2、抓取“创造性”数据可构成侵犯知识产权的犯罪。由于数据与知识产权的“无形财产”具有天然契合性，都卸下了物质载体这一“枷锁”，以数字代码形式储存、利用、传输，因而几乎所有的网络知识产权都可以被网络爬虫抓取。然而，网络知识产权具有不同于一般数据的典型特征——创造性，其价值主要在于维护所有权人的专有控制力以及排他性处分、使用收益权能。未经权利人许可、授权而非法复制、下载等，可构成侵犯知识产权犯罪。如网络爬虫抓取在线小说行为可构成侵犯著作权罪。此外，通过网络爬虫抓取商业秘密的行为也可构成侵犯商业秘密罪。

3、抓取普通数据，可构成非法获取计算机信息系统数据罪。根据刑法第二百八十五条第二款的规定，违反国家规定，侵入前款规定以外的计算机信息系统或者采用其他技术手段，获取该计算机信息系统中存储、处理或者传输的数据的行为，构成非法获取计算机信息系统数据罪。

非法破坏计算机信息系统或数据，可构成破坏计算机信息系统罪

网络爬虫的技术风险还包括造成被爬取数据的网站拥堵甚至系统崩溃、对被爬取的数据进行破坏等。如果网络爬虫侵入计算机信息系统后，对计算机信息系统进行破坏、对数据进行破坏，或者对计算机信息系统安全措施进行暴力破解，甚至将爬虫技术滥用为网络攻击方式等，都可能构成破坏计算机信息系统罪。

综上，网络爬虫作为数据资源获取和利用的重要手段，其“技术中立更多的是一种理念，现实生活中的技术通常都是行为的工具，通过技术实施的竞争行为与技术本身的中立性不能简单画等号。技术中立有利于技术创新，但技术创新仍有其法律边界。”基于数据的流动性、共享性对数据的开放程度及其公共秩序的构建，成为当前我国规制网络爬虫的基点。

有关网络爬虫的相关违法案例，在《网络爬虫是否合法，真实案例触目惊心》一文做了列举说明，有兴趣的读者可以跳转阅读。