如何让网址不被百度
发布网友
发布时间:2022-09-25 06:54
我来回答
共3个回答
热心网友
时间:2023-09-16 02:24
逃避搜索引擎的法眼
作为搜索引擎的开发者,同样留给了网络管理员或网页制作者提供了些方法来*网络机器人的行动:
当robots访问一个网站(比如http://www.yoursite.com)时,首先会像一个大宅子的陌生访问者一样,先查看查看该宅子是否同意它进入。如果不同意,它就悄然无声的走掉;如果同意,它会看看主人只允许它进入那些房间。网络机器人首先检查该网站中是否存在http://www.yoursite.com/robots.txt这个文件,如果找不到这个文件,那么,机器人就会横冲直入,查遍它需要查找的信息。如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。当然,如果该文件的内容为空的话,那么也就相当于没有找到文件一样,大胆行事。记住robots.txt文件应该放在网站根目录下。
robots.txt文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:
User-agent:
该值用于描述搜索引擎robot的名字,不同的搜索引擎是有不同的名字的,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到该协议的*,对这个文件来说,如果你需要*robots,那么至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中," User-agent: * "这样的记录只能有一条。
Disallow :
该值用于*robot访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow 开头的URL均不会被robot访问到。例如“Disallow: /hacker”对/hacker.html 和/hacker/index.html都不允许搜索引擎访问,而“Disallow: /hacker/”则robot照样可以访问/hacker.html,而不能访问/hacker/index.html。任何一条Disallow记录为空,也就是说在多条Disallow记录下,只要有一条是写成“Disallow:”说明该网站的所有内容都允许被访问,在"/robots.txt"文件中,至少要有一条Disallow记录。
下面是Robot.txt的一些例子,只要把下列的任何一个代码保存为robots.txt,然后传到指定位置,就可以实现逃避搜索引擎的法眼:
例1. 禁止所有搜索引擎访问网站的任何部分:
User-agent: *
Disallow: /
例2. 允许所有的robot访问:
User-agent: *
Disallow:
例3. 禁止某个搜索引擎的访问:
User-agent: BadBot
Disallow: /
例4. 允许某个搜索引擎的访问:
User-agent: spider
Disallow:
User-agent: *
Disallow: /
例5. 一个简单例子:
在这个例子中,该网站有三个目录对搜索引擎的访问做了*,即搜索引擎不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不要写成 "Disallow: /cgi-bin/ /bbs/"。User-agent:后的* 具有特殊的含义,代表"any robot",所以在该文件中不能有"Disallow: /bbs/*" or "Disallow: *.gif"这样的记录出现.
User-agent: *
Disallow: /cgi-bin/
Disallow: /bbs/
Disallow: /~private/
热心网友
时间:2023-09-16 02:24
逃避搜索引擎的法眼
作为搜索引擎的开发者,同样留给了网络管理员或网页制作者提供了些方法来*网络机器人的行动:
当robots访问一个网站(比如http://www.yoursite.com)时,首先会像一个大宅子的陌生访问者一样,先查看查看该宅子是否同意它进入。如果不同意,它就悄然无声的走掉;如果同意,它会看看主人只允许它进入那些房间。网络机器人首先检查该网站中是否存在http://www.yoursite.com/robots.txt这个文件,如果找不到这个文件,那么,机器人就会横冲直入,查遍它需要查找的信息。如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。当然,如果该文件的内容为空的话,那么也就相当于没有找到文件一样,大胆行事。记住robots.txt文件应该放在网站根目录下。
robots.txt文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:
User-agent:
该值用于描述搜索引擎robot的名字,不同的搜索引擎是有不同的名字的,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到该协议的*,对这个文件来说,如果你需要*robots,那么至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中," User-agent: * "这样的记录只能有一条。
Disallow :
该值用于*robot访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow 开头的URL均不会被robot访问到。例如“Disallow: /hacker”对/hacker.html 和/hacker/index.html都不允许搜索引擎访问,而“Disallow: /hacker/”则robot照样可以访问/hacker.html,而不能访问/hacker/index.html。任何一条Disallow记录为空,也就是说在多条Disallow记录下,只要有一条是写成“Disallow:”说明该网站的所有内容都允许被访问,在"/robots.txt"文件中,至少要有一条Disallow记录。
下面是Robot.txt的一些例子,只要把下列的任何一个代码保存为robots.txt,然后传到指定位置,就可以实现逃避搜索引擎的法眼:
例1. 禁止所有搜索引擎访问网站的任何部分:
User-agent: *
Disallow: /
例2. 允许所有的robot访问:
User-agent: *
Disallow:
例3. 禁止某个搜索引擎的访问:
User-agent: BadBot
Disallow: /
例4. 允许某个搜索引擎的访问:
User-agent: spider
Disallow:
User-agent: *
Disallow: /
例5. 一个简单例子:
在这个例子中,该网站有三个目录对搜索引擎的访问做了*,即搜索引擎不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不要写成 "Disallow: /cgi-bin/ /bbs/"。User-agent:后的* 具有特殊的含义,代表"any robot",所以在该文件中不能有"Disallow: /bbs/*" or "Disallow: *.gif"这样的记录出现.
User-agent: *
Disallow: /cgi-bin/
Disallow: /bbs/
Disallow: /~private/
热心网友
时间:2023-09-16 02:24
在页面中根据“拒绝蜘蛛”协议加注拒绝收录的标记
热心网友
时间:2023-09-16 02:25
你的网址百度肯定要去搜索,搜索到相关的内容后,把网址和相关内容一并存储起来!~
当网友搜索到相关的内容后,就会把你的网址显示出来!
所以,你网页头文件里没有内容就可以不被搜索存储起来了!~
热心网友
时间:2023-09-16 02:24
在页面中根据“拒绝蜘蛛”协议加注拒绝收录的标记
热心网友
时间:2023-09-16 02:25
你的网址百度肯定要去搜索,搜索到相关的内容后,把网址和相关内容一并存储起来!~
当网友搜索到相关的内容后,就会把你的网址显示出来!
所以,你网页头文件里没有内容就可以不被搜索存储起来了!~