爬虫整顿风暴冲击波持续 杭州大数据服务商接连被查
这波针对爬虫业务的强监管是由于公安部门打击“套路贷”牵扯出了导流获客和暴力催收这两个帮凶,发现爬虫是主要工具,为这些“套路贷”平台爬取通讯录、地址定位等个人敏感信息,从而引发了命案及相关刑事调查。
爬虫,应用与边界
网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序与技术。如果通过爬虫抓取网络公开信息,并不违法;但如果抓取的是未公开、未授权的个人敏感信息,就属于违法行为,违反的是2017年6月1日实施的《网络安全法》以及“两高”相关司法解释。
51信用卡事件在杭州警方发声明之前,多方都认为是因为爬虫技术使用不当触及红线导致,由此,爬虫技术也被拉到了公众关注的焦点。21世纪经济报道记者了解到,其实,外界的这种猜想也是无风不起浪,爬虫整肃风暴缘何刮到杭州并卷起风暴?
今年以来,大数据风控行业颇不平静,9月份以来,杭州的魔蝎科技和公信宝运营公司、杭州存信数据科技有限公司(以下简称“杭州存信”)以及贷款超市头部机构“信用管家”先后被杭州警方调查。
此外,还有多家大数据风控公司人士“协助调查”,涉及同盾科技等多家机构。一时风声鹤唳,大数据行业的从业者人人自危。多家大数据公司表态暂停爬虫业务。
21世纪经济报道记者多方了解到,上述公司受调查均是与爬虫业务有关。
对此,同盾科技相关人士22日回复21世纪经济报道记者称,数聚魔盒产品是信川的产品之一,因为该服务对适用条件与场景有严格的授权要求与限制,为了更加严格的保护用户合法权益,避免个人信息被误用,同盾已经从去年开始逐步调整业务,目前已全部停止相关服务。除此之外,同盾的高管并没有接受警方调查,同时,同盾主营业务也没受到影响,没有相关调整。
爬虫“鼻祖”被查
10月21日上午,51信用卡位于杭州西湖区紫霞街80号西溪谷国际商务中心的办公地点遭遇杭州警方突击调查。引来业内一片哗然。
而51信用卡正是行业内最早开展爬虫的公司之一,这让不少业内人士猜测此次被警方调查即是利用爬虫技术非法获取用户个人信息,而这是近期公安部严厉打击的范畴。
51信用卡堪称业内爬虫行业的鼻祖,此次杭州被调查的数据公司魔蝎科技创始人周江翔是51信用卡的前高管。魔蝎科技是业内知名的大数据服务公司,合作机构范围较广,牵涉业内大量金融机构。
但杭州公安10月21日深夜发布的最新通报显示,51信用卡被调查的原因是其委托的外包催收机构涉嫌非法催收,涉嫌寻衅滋事等犯罪行为。
就在51在杭州被大批警察包围突击调查的同一天,10月21日,最高人民法院、最高人民检察院、公安部、司法部联合发布《关于办理非法放贷刑事案件若干问题的意见》。《意见》将打击目标锁定社会危害性最为突出的非法高利放贷,明确在定罪量刑时以单次实际年利率超过36%的非法放贷为基准。规定即日生效施行。
同日,《关于办理利用信息网络实施黑恶势力犯罪刑事案件若干问题的意见》也正式发布,公安部副部长、全国扫黑办副主任杜航伟在新闻发布会中表示,《意见》首先明确,通过线上方式实施黑恶势力犯罪的主要手段是“发布、删除负面或虚假信息,发送侮辱性信息、图片,以及利用信息、电话骚扰等方式,威胁、要挟、恐吓、滋扰他人”,同时对利用信息网络实施的强迫交易罪、敲诈勒索罪、寻衅滋事罪如何认定以及此类案件的特殊取证方式等问题,作了明确规定。
“刀怎么用才是问题”
所谓网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序与技术。如果通过爬虫抓取网络公开信息,并不违法;但如果抓取的是未公开、未授权的个人敏感信息,就属于违法行为,违反的是2017年6月1日实施的《网络安全法》以及“两高”相关司法解释。
爬虫技术的数据主要分为司法信息、电商信息、银行卡信息、运营商信息、社交信息、开放数据等几大类。在这些数据维度中,比较受欢迎的都是覆盖度高、标准化较强的通用类数据,比如身份验证、逾期黑名单信息等,一般是通过爬取淘宝、社交网络、网上银行等获取数据。
21世纪经济报道记者了解到,这波针对爬虫业务的强监管是由于公安部门打击“套路贷”牵扯出了导流获客和暴力催收这两个帮凶,发现爬虫是主要工具,为这些“套路贷”平台爬取通讯录、地址定位等个人敏感信息,从而引发了命案及相关刑事调查。
2017年6月1日,《网络安全法》正式施行,其中第四十一条规定,网络运营者收集、使用个人信息,应当遵循合法、正当、必要的原则,公开收集、使用规则,明示收集、使用信息的目的、方式和范围,并经被收集者同意;第四十四条规定,任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息。
一家杭州的大数据风控公司相关负责人对21世纪经济报道记者表示,“目前观测到的市场的一些动向和监管的尺度,更多是在于爬虫技术的非法使用。不注重个人隐私保护,泄露信息,甚至贩卖信息给涉黑暴力催收。所以卖刀没问题,刀怎么用才是问题。”
他认为,经过整肃之后存活的数据公司数量会大幅减少,同时对于数据使用的规范要求会更严格,这会让绝大部分的金融科技公司都或多或少受到冲击,因为大数据是整个金融科技行业的基础设施。
判断爬虫行为合法性, robot协议不可或缺
在最近的态势下,大数据行业如今面临强监管。
一位从业人员对此表示,公民个人信息是绝对不敢爬了,那么网上的公开非敏感个人信息能否收集,怎样的爬虫行为是合法的?
对此,中国银行法学研究会理事肖飒10月22日对21世纪经济报道记者表示,判断爬虫行为是否具有合法性,robot协议不可或缺。存在已有25年的robot协议是互联网搜索引擎与网页持有者之间达成的“行业规范”,该协议会告知网站的“访问权限”,如果设置了robot协议,大数据公司还要突破访问权限,那么就具有明显的主观恶性。
互联网行业里谷歌、百度、搜狗、ebay等,均设有该协议,这几乎是每一个互联网人都知道的常识,如果公司不想被爬取信息,只需要很轻松地安放robot协议表明不愿意被爬取和收录就可以了。
“也就是说,如果没有robot,应该就可以理解为可以合法爬取的公开信息。”肖飒称。
但是近期的案例有明显从严的趋势。以某直辖市某区判决一场刑事官司为例,被告人张某、宋某、侯某共谋用技术手段(爬虫)在某网站抓取视频,放入自己所在公司网站上,造成被害公司人民币2万元的经济损失。2017年9月提起公诉,后三人被判非法获取计算机信息系统数据罪,各自领刑。
同盾科技CEO蒋韬曾在对外发布的公开信《心存敬畏向善而行》中表示,人工智能及大数据的发展中的数据及隐私保护是一个世界级难题,需要监管、企业、法律界等共同研究和探讨。
爬虫技术罪与罚:失衡的催收应用边界
“爬虫技术是一项工具,但被居心不良的人使用,就可能出现大问题。”一位互联网消费金融平台风控总监感慨说。
尽管近日51信用卡被查主要源自其委托的催收公司存在冒用国家工作人员暴力催收行为,但在多位业内人士看来,这种暴力催收行为离不开爬虫技术的“配合”。
“比如有些互联网消费金融平台通过爬虫技术能时时掌握借款人行踪与地址定位(未必获得用户允许),然后将此信息转交给催收公司,由后者上门轮番暴力催收,无论借款人跑到哪里,暴力催收就如影随影,如此部分借款人心态崩溃,容易走上不归路。”这位互联网消费金融平台风控总监透露,此外有些平台在未获得用户授权的情况下,通过爬虫技术掌握借款人与亲朋好友的通话记录,由此向这些亲朋好友施压督促他还款,导致借款人感到脸面丢失,也容易走上不归路。
他坦言,这背后,与某些平台通过爬虫技术过度收集并贩卖借款人隐私信息息息相关。
多数情况下,借款人看到的授权协议仅仅显示平台将通过后者授权的账号,只能登陆相关网站邮箱与手机桌面查看所下载的APP。但事实上,这些平台的爬虫技术早已突破授权协议使用范畴,开始抓取借款人在网站邮箱与手机桌面的大量各类数据,其中不少涉及用户极其隐私的个人信息“另有他用”。比如他们会将借款人地址定位信息“交给”催收公司进行催收回款,或将借款人其他隐私信息卖给其他平台作为信贷风控决策依据等。
“在欧美国家,这种行为肯定是触犯法律的。”一位曾在美国开发爬虫技术的金融机构技术总监向21世纪经济报道记者透露。
记者多方了解到,目前中国对用户隐私信息保护的相关法律正在加速完善,比如正在征求意见的《个人金融信息(数据)保护试行办法》规定,(金融机构)不得非法从从事个人征信业务活动的第三方获取个人金融信息,以及金融机构不得以“概括授权”的方式取得信息主体对收集、处理、使用和对外提供其个人金融信息的同意。
被玩坏的爬虫技术
上述金融机构技术总监直言,爬虫技术在欧美国家金融领域的使用相当普遍,比如在洗钱监管方面,不少金融科技公司通过爬虫技术抓取各类公开信息,以此完善涉嫌洗钱者的名单以及其人际关系网,从而不放过任何一个漏网之鱼。
“在中国,爬虫技术显然被玩坏了。”他透露,相比欧美国家金融机构通过爬虫技术只能抓取公开信息或经用户授权的个人信息,中国不少P2P平台都存在利用爬虫技术过度收集用户隐私信息行为。具体而言,比如用户授权P2P平台只能访问他浏览过的网站页面或邮箱里涉及信用卡账单的邮件,手机桌面APP下载软件等信息,但在实际操作环节,这些P2P平台利用爬虫技术抓取用户在这些网站的消费行为,私人邮件内容,还有个人行踪及地址定位等隐私信息。
这也是引发暴力催收事件频发的主要原因之一。比如P2P平台将用户地址定位“交给”催收公司,由后者不断上门轮番对借款人进行暴力催收加快回款速度,而部分借款人发现自己走到哪里都被暴力催收,最终心态崩溃并走上不归路。
此外,很多P2P平台还通过用户“授权”,通过爬虫技术抓取用户在银行的大量个人信息,包括个人以往借贷还款记录,职业、婚姻状况等数据,并将这些数据与用户提交给平台的个人数据进行交叉验证,以此判断用户真实的还款能力与还款意愿。但事实上,这种用户“授权”所抓取的内容,是银行需保护的用户隐私信息。
这也引发不少银行与P2P平台的纠葛。近日市场传闻一家银行向51信用卡发函,直指后者通过爬虫技术对银行用户信息进行全方位大量抓取。由于银行未与51信用卡签订相关授权书——允许后者从银行系统获取用户个人信息,因此银行认为51信用卡此举构成侵犯公民个人信息罪,要求后者停止这种抓取用户个人信息行为。
监管加强保护个人隐私
面对爬虫技术过度收集贩卖个人隐私信息所造成的社会问题,欧美国家相关部门一直在加强从严监管力度。
去年5月,欧盟出台了《通用数据保护条例》(简称GDPR)。这份法案的最大杀伤力,是过去互联网机构习以为常的、利用爬虫技术过度抓取用户行为数据的做法,因涉嫌侵犯隐私变得不再“合法”。
它之所以被称为史上最严的数据保护法案,主要在于两点,一是任何企业只要在欧盟市场提供商品或服务,或收集欧盟公民的个人数据,都将受到这部法案的管辖。比如中国跨境电商平台提供“面向欧洲的特惠产品”“欧洲区包邮”等采购服务,或在商品价格上标注欧元价格,就可以被视为在欧盟市场提供商品或服务,将受到GDPR的管辖;二是GDPR法案规定跨境电商等网站经营者不得擅自将用户姓名、银行账户、IP地址等个人信息用于其他业务用途,反之这些网站经营者若要将用户信息用于其他业务用途,需与用户重新签订一份授权协议并明确标注新的用途。
这导致不少跨境电商等互联网平台抱怨客户服务体验大幅下降。因此它们一直尝试游说欧洲相关部门能适度放宽GDPR对个人信息获取使用的监管要求,但鉴于对用户隐私信息的从严有效保护,欧洲相关部门没有松口。
美国奥斯顿律师事务所(alston&bird llp)合伙人kenneth g.weigel此前接受本报记者采访时表示,美国法律则主要从“未经授权故意访问”“超过授权访问权限””从任何受保护的计算机获取信息”三大维度判断爬虫技术公司是否过度收集使用用户个人隐私信息。按照《1986年计算机欺诈与滥用法》,只要爬虫技术公司在抓取用户个人隐私数据时存在上述三种状况,基本都被判定败诉与巨额赔款。
值得注意的是,近年中国在保护个人隐私信息方面的法律日益完善。早在2017年5月8日,最高法院、最高检察院出台了《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》,对爬虫技术过度收取滥用个人隐私数据做出严格入罪规定。
正在征求意见的《个人金融信息(数据)保护试行办法则规定金融机构不得非法从从事个人征信业务活动的第三方获取个人金融信息,以及不得以“概括授权”的方式取得信息主体对收集、处理、使用和对外提供其个人金融信息的同意。
“在2017年《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》出台后,相关部门曾抓了一些利用爬虫技术过度收集滥用个人隐私数据的P2P平台技术人员,但由于当时处罚力度不够重,并未引发很多大数据风控机构与P2P平台高层重视,如今多家爬虫技术公司被查与相关高层被抓,足以凸显相关部门正采取雷霆手段整治爬虫技术过度收集滥用个人隐私数据行为,从而净化个人隐私信息保护领域。”上述平台技术总监指出,经此一番行业动荡,利用爬虫技术过度收集个人隐私信息牟利的公司未来生存空间也被大幅压缩,目前很多银行与持牌金融机构已经暂停与这类机构的各类大数据风控技术合作。