合法地使用网络爬虫爬取数据一直是数据公司必须坚守的底线。然而并不是每一个企业,每一个从事数据爬取,或者每一个从事开发爬虫的软件工程师都了解其中的法律风险。有人认为,爬取数据是公司行为,即使触碰了法律的底线,最终需要负责的是企业法人。其实这种想法和理解是大错特错。一旦爬取数据违法,不但从事爬取数据的公司会受到法律的制裁,负责开发爬虫的软件工程师也会被追究法律责任。例如在2017年今日头条状告上海晟品网络科技有限公司非法获取计算机信息系统数据的案件中((2017)京0108刑初2384号),海晟品网络科技有限公司法人,技术负责人,和底层数据爬虫开发工程师都被追究了刑事责任。因此,懂法守法不单单是公司的事情,更是每一个从事数据爬取相关人员都应该具备的基本知识。本文将和大家分享几个数据爬取和爬虫开发的基本原则。如果在日常工作中能够遵守这些基本原则,就能够有效的降低开发爬虫和爬取数据的法律风险。
数据爬取注意事项
首先我们来讨论一下在数据爬取前,数据爬取过程中需要注意的一些事项。
#1. 只有公开数据是可以爬取的
首先我们要搞清楚,什么是公开数据。在当前的互联网环境中,大多数的数据都是公开的,不需要用户登陆或者授权。通常情况下,这类数据是可以爬取的(当然还要遵循以下条款)。另外还有一类数据是需要登陆认证的,但是任何人都可以注册。注册成功以后登陆便可以访问。这类数据通常爬取的风险比较低(暂且可以认定为可以爬取)。另外一类数据,必须是特定人群可以注册(注册功能没有开放),并且这类数据可能是个人信息(个人信息安全规范,GB/T 35273-2017),又或者归属第三方的商业信息(非公开信息,因为需要授权登陆),
#2. 必须遵守网站条款
在确定爬取网站前,必须确认网站条款。很多网站都会有自己的条款页面。比如百度自己的网站条款,其中就有关“禁止爬虫”的条款。
#3. 必须遵守Robots协议
在我们确定要爬取的网站以后,需要确定网站是否有robots.txt文件。简单地说,该文件告诉爬虫程序,该网站中哪些数据运行机器爬虫爬取,哪些不可以。具体定义请参考Google的定义。
#4. 不可以采取破解反爬措施爬取数据
有很多网站,为了防止恶意爬虫爬取数据,会采取一些反爬措施,包括限制IP访问,识别码验证,User Agent检测等。对于这类网站,虽然在技术上可以突破封锁,但是违规的法律风险非常高。因为这类行为会被认定为破解网站安全保护措施,恶意执行入侵行为,破坏信息系统。这些行为包括:
- 突破信息系统的安全策略获取必要权限
- 破解加密规则
- 绕过强制性认证机制(账号密码、验证码等)
- 绕过系统设置的反爬虫措施
- 设置恶意代码和后门
#5. 不可以高频爬取
这个比较容易理解。如果我们爬取频率过高,影响了目标网站的正常工作,这样的行为是必须要禁止的。否则也会被认为是破坏信息系统行为。因此我们要合理控制收集数据的频率。通常来说访问收集数据的流量不超过访问对象日均流量三分之一。
数据使用注意事项
首先需要指出的是,千万不能售卖爬取的数据,通过爬取的数据获利。这个是完全禁止的。只有通过提供技术支持的方式与第三方合作,才是比较稳妥的方案。在合作的过程中,也必须遵守数据爬取原则以及数据使用原则。
在数据使用过程中,主要需要注意的是禁止以不正当竞争为目的的数据爬取行为,可以参考《反不正当竞争法》第二条规定。这个解释起来比较难,我们可以举几个例子说明一下。
百度奇虎反不正当竞争案
奇虎推出搜索引擎服务中通过爬虫技术爬取了百度搜索结果并提供给用户使用。最终法院认定奇虎公司违反《中华人民共和国反不正当竞争法》第二条的规定,构成不正当竞争(参考文献1)。
新浪微博诉脉脉不正当竞争案
原告北京微梦创科网络技术有限公司(以下简称微梦公司)诉被告北京淘友天下技术有限公司(以下简称淘友技术公司)、被告北京淘友天下科技发展有限公司(以下简称淘友科技公司)不正当竞争纠纷一案中,脉脉软件非法爬取使用新浪微博平台用户信息,包括头像、名称(昵称)、职业信息、教育信息及用户自定义标签、用户发布的微博内容(参考文献2,3)。
使用数据注意版权
另外还有一些具有版权的数据虽然是公开数据,并且评估后的爬取风险非常小,但是数据是具有版权的,因此在使用过程中必须非常小心。例如在乐视与芒果视频的侵害作品信息网络传播权纠纷中,芒果视频爬取了乐视拥有版权的视频,在App中播放这些视频并打上了乐视的水印,但是仍然属于侵权行为。最终,法院判决故播罗万象公司在未获得授权的情况下,提供涉案作品的行为构成对乐视公司信息网络传播权的侵犯(参考文献4)。
参考文献
- 北京奇虎科技有限公司与北京百度网讯科技有限公司、百度在线网络技术(北京)有限公司商标权权属纠纷申请再审民事裁定书(2014)民申字第873号
- 北京微梦创科网络技术有限公司与北京淘友天下技术有限公司等不正当竞争纠纷一审民事判决书(2015)海民(知)初字第12602号
- 北京淘友天下技术有限公司等与北京微梦创科网络技术有限公司不正当竞争纠纷二审民事判决书(2016)京73民终588号
- 乐视网信息技术(北京)股份有限公司与北京播罗万象科技有限公司侵害作品信息网络传播权纠纷一审民事判决书(2016)京0105民初32469号

扫码联系船长