爬虫是爬URL还是 HTML的文本内容啊?哪位大神可以解释一下嘞
发布网友
发布时间:2022-04-20 15:46
我来回答
共1个回答
热心网友
时间:2022-04-20 17:15
爬虫爬得是文本内容。首先你的网址并不能反映出你这网站到底是做什么的,再次网址是你网站的路径,爬虫是根据你的网址找到你的网站的。
爬虫爬得是你的网站文件,不是你的网站页面。
再有就是在代码里面,只有文本是一目了然可见的,所以爬虫也只有爬文本才知道你的网站到底在表达什么。
rul只是一个路径,在网络上指向你想表现的内容。它的功能就跟导航一样,只能带着爬虫去目的地,但是它不知道目的地种的是什么花