问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

通俗的讲,网络爬虫到底是什么?

发布网友 发布时间:2022-03-23 13:41

我来回答

2个回答

懂视网 时间:2022-03-23 18:02

网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

  

  网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

  

热心网友 时间:2022-03-23 15:10

网络爬虫,又被称为网页蜘蛛、网络机器人,在FOAF社区中间,更经常地被称为网页追逐者。网络爬虫是一种按照一定的规则,自动地抓取万维*息的程序或者脚本。

传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。



简单粗暴地理解网络爬虫的话,就好比一只虫子在互联网上爬来爬去,把它“看”到的信息反馈给用户。我们平时使用的听歌软件,它大体上了解每个人的听歌喜好,“每日推荐”、“年度听歌报告”等都会推荐、整理和总结每个人偏好的类型、曲风、歌手等等。

还有一些团购平台,也会根据个人的喜好去推荐休闲娱乐的类型、地点等等,这就是利用网络爬虫的结果,网络爬虫根据用户平日的搜索类型,把所有与之相关的信息全部爬取过来,统统搬运到用户这里。这时候它就是一只“益虫”,是有益的“合法爬虫”。

说完听歌和团购,再来说说抢票。甭管飞机票火车票演唱会门票,相信大家十有*都抢过。先拿演唱会门票来说,疫情之前,追星的少男少女们都好看看演唱会,演唱会里边属周杰伦的票最难抢,抢过票的都知道。

你要是抢到了,我敬你的网络爬虫爬得快。虽然这是句玩笑,可事实上,的确是有一些人或团体通过强行突破网站反爬措施,窃取后台数据,爬走了大量门票,让粉丝无路可走。

同理,一些针对飞机票、火车票的抢票软件,也是以此手段抓取航空公司官网或火车购票平台的信息,导致用户无法通过正常渠道购票。这个时候,网络爬虫就变成了“害虫”,也因此被定义为“恶意爬虫”。

不论是“合法爬虫”还是“恶意爬虫”,网络爬虫本质上就是数据的搬运工,无数据,不爬虫。因此,要研究爬虫,就要先明确数据来源。尤其是对小型公司来说,往往需要更多外部数据辅助商业决策。

俗话说,“君子爱财,取之有道”,失了“道”,那肯定就不够“君子”了。而对于网络爬虫来说,一旦它变得不再“君子”,它就成为了一只害虫。这时候,反爬虫就应运而生了。在搬运数据的过程中,爬虫与反爬虫永远处于一个此起彼伏、此消彼长的博弈状态。

随着数据资源的爆炸式增长,网络爬虫的应用场景和商业模式也变得更加广泛而多样,网络爬虫作为数据抓取的实践工具,构成了互联网开放和信息资源共享理念的基石。爬虫本身是无罪的,也并未违背法律和道德。

但程序在运行的过程中,有可能对他人经营的网站造成破坏,爬取的数据有可能涉及隐私或机密,数据本身也可能产生法律纠纷。在使用爬虫时,爬虫开发者的道德自持和企业经营者的良知才是避免触碰法律底线的根本所在。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
桥本氏甲亢化验单说明什么 桥本氏甲亢??检验报告严重么 华为Y325-T00手机不小心设置英文版怎么办? 腾讯手游助手怎么双开 腾讯手游助手能双开吗 腾讯手游助手怎么双开-腾讯手游助手双开教程 审计定义的理解是什么 全国各地还有谁叫刘超啊 ? 滑冰滑冰场 彭水火车站到重庆北火车站有的少公里一 彭水到重庆坐火车要几个小时 都在说爬虫,究竟什么是爬虫技术啊,爬虫技术能够达到什么效果? 什么是爬虫技术是什么 手机里的短信息误删了怎么恢复 手机删除的短信怎么找回 删除的手机短信怎么恢复 手机删除的短信在哪里可以找到 安卓手机删除的短信怎么恢复 删除的短信怎么找回来? 手机如何恢复删除的短信 手机短信删掉了怎么恢复 手机删掉的短信怎么找回 如何找回已删除的短信? 手机里删掉的信息如何恢复 如何恢复手机短信删除内容 重要短信被误删了怎么办?怎么恢复手机中重要的短信 怎样找回手机里已删除的短信 手机短信删除了怎么恢复的两大方法 手机短信删除了怎么恢复最简单方法? 手机上误删除的短信如何恢复 华为手机怎样识别文字 网络爬虫技术的概述与研究 什么是网络爬虫 什么是网络爬虫技术 网络爬虫主要能干啥? 网络爬虫是什么,有很大的作用吗? 网络爬虫是什么意思 爬虫技术可以做什么 爬虫技术 什么编程语言 网络爬虫是干什么的? 华为桌面图标大小怎么设置 oppo手机如何放大桌面图标 oppo怎样设置图标大小? 手机屏幕上的图标怎么放大 手机左上角出现HD 华为navo3怎么消除啊? 华为手机怎么开启盲人模式 华为手机进入了盲人模式要怎样才能打开 华为手机盲人模式怎么开启 华为手机怎么从盲人模式改为正常模式 华为手机怎么打开盲人模式 华为取消盲人模式在哪