打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
网络爬虫正在“入侵”你的生活......

                 网络爬虫正在“入侵”你的生活......

吕梁政法
前天
相关推荐

刷个短视频

看看直播

结果其他同类产品推销却找上门来……

注意!

你的个人信息可能已经被网络爬虫爬取

2022年5月10日,经江苏省无锡市梁溪区人民检察院提起公诉,梁溪区人民法院以提供侵入计算机信息系统程序罪判处被告人丁某有期徒刑一年六个月,缓刑两年,并处罚金三万元。据悉,该案为全国首例短视频平台“爬虫”案。

在互联网大数据时代背景下,网络爬虫作为一项获取网络中数据和信息的技术,在使用方面一直存在争议。

一、什么是网络爬虫

网络爬虫,又被称为网络机器人、网页蜘蛛。网络爬虫通过模仿人类浏览互联网的行为,将网页、应用软件等数据信息爬取,是一种按照一定规则对互联网信息或者数据进行抓取的程序或脚本。

网络爬虫又分为善意爬虫和恶意爬虫。善意爬虫具有促进数据共享的正面影响,而恶意爬虫极有可能造成数据泄露、侵权、不当竞争等危害。

二、近十年网络爬虫发展过程

网络爬虫的起源可以追溯到互联网诞生之初。随着互联网的不断发展以及数字经济的出现,数据和信息的重要性日益显现。无论是公开的信息,还是私密的数据,其背后隐藏的价值都不言而喻。

1.2013年—2015年:北美地区调查显示网络爬虫流量占比约五成

海外著名调查机构Aberdeen Group在2013年至2015年以北美地区几百家公司为调查对象,探究网络爬虫访问流量发现,网络爬虫访问这些公司网站的流量占比竟高达约五成。其中,2014年真人访问流量只占40.9%。

除了2013年,善意爬虫访问流量(24.22%)高于恶意爬虫(20.98%)约三个百分点之外,2014、2015年恶意爬虫访问流量占比分别为36.32%、27.04%,均高于同年的善意爬虫访问流量占比(22.78%、18.16%)。

2.2018年:云鼎实验室追踪恶意爬虫流量最大行业,“出行”行业居首

近些年来,随着我国互联网不断发展,“大数据”的概念深入人心,数据价值更被喻为“无价之宝”。但是在利益的驱使下,许多公司或者个体开始引入“恶意爬虫”肆意爬取其他公司或者个人的重要数据、信息。

云鼎实验室在2018年对海量恶意爬虫流量进行追踪,并统计出了恶意爬虫流量最大的十大行业。其中,占比最多的是出行行业(20.87%)。分析认为,购票平台数据量庞大,尤其在节假日期间,车票、机票、住宿更是供不应求,致使代购票和第三方抢票服务层出不穷,而要做到数据实时刷新,需要大量网络爬虫。

3.2019年:Aberdeen Group数据显示网络爬虫流量高达37.2%

根据Aberdeen Group在2019年的调查显示,纵观整个互联网,网络爬虫的流量高达37.2%。这些网络爬虫在网络中肆意游走,爬取数据、查看信息,如此循环往复。

按照网络爬虫的功能进行分类,可以分为网页爬虫和接口爬虫(也称API爬虫)。

4.2020年—2021年:典型案例显示API爬虫成为数据泄露主要威胁

2021年6月,根据中国裁判文书网的公开判决案例显示,河南省商丘市睢阳区人民法院依法对逯某、黎某侵犯公民个人信息进行判决。原因是逯某从淘宝中非法爬取了11亿余条客户信息,并将非法获得的用户信息提供给了黎某用于商业经营,非法获利34万元。

此案一经判决便在网络中引发了不小的议论,部分网友对自己的个人隐私表示担忧。该案中,逯某就是运用了API爬虫技术对用户信息进行了非法爬取。根据永安在线的统计,API爬虫已经成为了数据泄露的主要威胁。

三、分析师点评

舆论认为,新技术的出现标志着时代革新,技术不分好坏,用途却有善恶。恶意爬虫横行网络,且涉足领域广泛,从个人信息到开源数据,从政府网站到商业网站,相关危害不容小觑。

《检察日报》等文章认为,首先应明确合法使用爬虫技术的边界。相关判定标准至少需包括三项原则,一是合法的网络数据爬取应限于对开放数据的获取;二是合法使用的数据爬虫技术不应具有侵入性;三是数据爬取应当基于正当目的。同时,明确各部门和不同行业主管部门的监管职责,提升执法能力、强化监管体系,在整治恶意爬虫这一目标上形成合力,促进网络爬虫技术在法律规制下健康发展。

来源:法治网舆情中心(ID:fzwyqzx)


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
四成互联网流量来自恶意机器人
网宿科技发布2019年中国互联网安全报告:日均抵御33.37亿次攻击,云上攻击持续升级
UC头条:传某头部互联网公司被攻陷,攻击者利用爬虫获取11.8亿条数据,8个月获利34万
Python网络爬虫师必备知识
机器流量超过人类流量,主导整个互联网?
JM2022综述 | 黄金领域: 为营销研究(新洞察)采集网络数据
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服