发布网友 发布时间:2022-03-23 13:41
共2个回答
热心网友 时间:2022-03-23 15:10
网络爬虫也叫网络蜘蛛,即Web Spider,名字非常形象。
如果把互联网比喻成一个蜘蛛网,那么Web Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,一直循环下去,直到把整个网站所有的网页都抓取完为止。
如果把整个互联网当成一个网站,那么网络蜘蛛可以用这个原理把互联网上所有的网页都抓取下来。
热心网友 时间:2022-03-23 16:45
付费内容限时免费查看回答简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。抢票软件,就相当于撒出去无数个分身,每一个分身都帮助你不断刷新 12306 网站的火车余票。一旦发现有票,就马上拍下来,然后对你喊:土豪快来付款。
但是,像抢票软件这样的爬虫,对着 12306 每秒钟恨不得撸几万次。铁总并不觉得很开心。这种就被定义为「恶意爬虫」。(注意,抢票的你觉得开心没用,被扫描的网站觉得不开心,它就是恶意的。)
出行行业中爬虫的占比最高(20.87%)。在出行的爬虫中,有 89.02% 的流量都是冲着 12306 去的。这不意外,全中国卖火车票的独此一家别无分号。
社交的爬虫重灾区,就是你们喜闻乐见的微博。
还有新闻 搜索 地图 自媒体 运营商 *部门 O2O灯都会用到