问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

.net如何判断网页是否由搜索引擎蜘蛛访问?

发布网友 发布时间:2022-04-19 03:37

我来回答

2个回答

懂视网 时间:2022-04-19 07:58

网站经常会被各种爬虫光顾,有的是搜索引擎爬虫,有的不是,通常情况下这些爬虫都有UserAgent,而我们知道UserAgent是可以伪装的,UserAgent的本质是Http请求头中的一个选项设置,通过编程的方式可以给请求设置任意的UserAgent。

所以通过UserAgent判断请求的发起者是否是搜索引擎爬虫(蜘蛛)的方式是不靠谱的,更靠谱的方法是通过请求者的ip对应的host主机名是否是搜索引擎自己家的host的方式来判断。

要获得ip的host,在windows下可以通过nslookup命令,在linux下可以通过host命令来获得,例如:

这里我在windows下执行了nslookup ip 的命令,从上图可以看到这个ip的主机名是crawl-66-249-64-119.googlebot.com。 这说明这个ip是一个google爬虫,google爬虫的域名都是 xxx.googlebot.com.

我们也可以通过python程序的方式来获得ip的host信息,代码如下:

import socket
def getHost(ip):
 try:
 result=socket.gethostbyaddr(ip)
 if result: return result[0], None
 except socket.herror,e:
 return None, e.message

上述代码使用了socket模块的gethostbyaddr的方法获得ip地址的主机名。

常用蜘蛛的域名都和搜索引擎官网的域名相关,例如:

百度的蜘蛛通常是baidu.com或者baidu.jp的子域名

google爬虫通常是googlebot.com的子域名

微软bing搜索引擎爬虫是search.msn.com的子域名

搜狗蜘蛛是crawl.sogou.com的子域名

基于以上原理,我写了一个工具页面提供判断ip是否是真实搜索引擎的工具页面,该页面上提供了网页判断的工具和常见的google和bing的搜索引擎爬虫的ip地址。

附带常见搜索引擎蜘蛛的IP段:

蜘蛛名称 IP地址
Baiduspider

202.108.11.* 220.181.32.* 58.51.95.* 60.28.22.* 61.135.162.* 61.135.163.* 61.135.168.*

YodaoBot

202.108.7.215 202.108.7.220 202.108.7.221

Sogou web spider

219.234.81.* 220.181.61.*

Googlebot

203.208.60.*

Yahoo! Slurp

202.160.181.* 72.30.215.* 74.6.17.* 74.6.22.*

Yahoo ContentMatch Crawler

119.42.226.* 119.42.230.*

Sogou-Test-Spider

220.181.19.103 220.181.26.122

Twiceler

38.99.44.104 64.34.251.9

Yahoo! Slurp China

202.160.178.*

Sosospider 124.115.0.*
CollapsarWEB qihoobot

221.194.136.18

NaverBot

202.179.180.45

Sogou Orion spider

220.181.19.106 220.181.19.74

Sogou head spider

220.181.19.107

SurveyBot

216.145.5.42 64.246.165.160

Yanga WorldSearch Bot v

77.91.224.19 91.205.124.19

baiduspider-mobile-gate

220.181.5.34 61.135.166.31

discobot

208.96.54.70

ia_archiver 209.234.171.42
msnbot

65.55.104.209 65.55.209.86 65.55.209.96

sogou in spider

220.181.19.216

ps:https协议网页能够被搜索引擎收录吗

百度现在只能收录少部分的https,大部分的https网页无法收录。

不过我查询了google资料,Google能够比较好地收录https协议的网站。

所以如果你的网站是中文的,而且比较关注搜索引擎自然排名流量这块,建议尽量不要将所有内容都放到https中去加密去。

可考虑的方式是:

1、对于需要加密传递的数据,使用https,比如用户登录以及用户登录后的信息;

2、对于普通的新闻、图片,建议使用http协议来传输;

3、网站首页建议使用http协议的形式。

热心网友 时间:2022-04-19 05:06

判断 this.Request.UserAgent
Google的蜘蛛: Googlebot
百度的蜘蛛:spider
Yahoo的蜘蛛:Yahoo Slurp
MSN的蜘蛛:Msnbot
Altavista的蜘蛛:Scooter
Lycos的蜘蛛: Lycos_Spider_(T-Rex)
Alltheweb的蜘蛛: FAST-WebCrawler/
INKTOMI的蜘蛛: Slurp
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
电脑分辨率设置多少合适笔记本电脑分辨率多少最佳 各尺寸笔记本电脑的最佳分辨率 2022年高考480到510分能上山东科技大学吗 朋友借了我一万块钱,现在坐牢了怎么还钱? 天王星和海王星虽然看似一对姊妹星,但还是有区别 ...值得收藏吗?现在分别只都多少钱,照片上有一个铜币的 谁能告诉我这是一枚什么样的铜币,值不值钱? 有谁知道这铜币值不值钱,懂家告诉我一下!谢谢 有谁知道这个铜钱的来历 可以进行异地公积金贷款吗 谁推荐几本跟《冒死记录中国神秘事件》相同类型的书籍?谢谢! 求一部电影 ,貌似是香港科幻电影,有点久远,记得有一个类似售货机的东西,男主把女主弄了出来,还发生爱情! 一部小说,好像是从天涯看到的,只记得一个组织,自称神山,敌方称深井。 求《冒死记录中国神秘事件》(无删节);求此小说的主要内容! 《一个神秘事件调查员的秘密笔记4》epub下载在线阅读全文,求百度网盘云资源 有一部电影里面的主演由刘德华、舒淇、关之琳这是什么电影? 《一个神秘事件调查员的秘密笔记4》epub下载在线阅读,求百度网盘云资源 中国罗布泊神秘事件、双鱼玉佩、僵尸杀人的事件。 谢啦谢啦 神秘事件采访笔记罗布泊,双鱼玉佩的那个! 罗布泊的双鱼玉佩是怎么回事? 三星n719如何强制恢复出厂设置? 三星怎么恢复出厂设置? 国富人寿八桂无忧C款重疾险性价比怎么样?价格多少? word中的分割线怎么删除 邮政储蓄推荐国富人寿保险2万一年交5年是什么保险 国富人寿保险6年到期怎么取款 什么茶类似与安吉白茶 变频器存储参数的是哪个芯片 汇川500系列变频器用的什么芯片 变频器芯片104B和104G通用吗? 怎么看频道直播? 怎么看直播比较顺畅 退休到哪里办理手续 很多三缸车型被证实不行,为什么丰田还要出三缸车型呢? 丰田3缸发动机怎么样? 丰田三缸机 逆流而上是真有“东西”? 听说丰田新出了卡罗拉三缸,不知道性能怎么样呀? 挑战三缸机不可能市场,广汽丰田新款雷凌1.5L凭什么不一样? PHP判断来访是搜索引擎蜘蛛还是普通用户的代码小结 丰田投产三缸机 三缸的卡罗拉还是那个“卡罗拉”吗? 宝马X2 这款车你喜欢吗? 宝马X2它的内饰如何?是你喜欢的吗? 驻马店道武搏击俱乐部教练是谁 如何看待中国地方保护主义? 张志俊老师的网站网址?如题 谢谢了 关于有井无盖的顺口秀,是谁写的? 驻马店市铭扬搏击俱乐部在哪,他们的少儿武术套路班,和*搏击班,哪个更好 如何看待中国的地域歧视 有井无盖打一地名 张志俊的个人简介