如何让网址不被百度

发布网友发布时间：2022-09-25 06:54

共3个回答

热心网友时间：2023-09-16 02:24

逃避搜索引擎的法眼

作为搜索引擎的开发者，同样留给了网络管理员或网页制作者提供了些方法来*网络机器人的行动：

当robots访问一个网站（比如http://www.yoursite.com）时，首先会像一个大宅子的陌生访问者一样，先查看查看该宅子是否同意它进入。如果不同意，它就悄然无声的走掉；如果同意，它会看看主人只允许它进入那些房间。网络机器人首先检查该网站中是否存在http://www.yoursite.com/robots.txt这个文件，如果找不到这个文件，那么，机器人就会横冲直入，查遍它需要查找的信息。如果机器人找到这个文件，它就会根据这个文件的内容，来确定它访问权限的范围。当然，如果该文件的内容为空的话，那么也就相当于没有找到文件一样，大胆行事。记住robots.txt文件应该放在网站根目录下。

robots.txt文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow行,详细情况如下：

User-agent:

该值用于描述搜索引擎robot的名字，不同的搜索引擎是有不同的名字的，在"robots.txt"文件中，如果有多条User-agent记录说明有多个robot会受到该协议的*，对这个文件来说，如果你需要*robots，那么至少要有一条User-agent记录。如果该项的值设为*，则该协议对任何机器人均有效，在"robots.txt"文件中，" User-agent: * "这样的记录只能有一条。

Disallow :

该值用于*robot访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow 开头的URL均不会被robot访问到。例如“Disallow: /hacker”对/hacker.html 和/hacker/index.html都不允许搜索引擎访问，而“Disallow: /hacker/”则robot照样可以访问/hacker.html，而不能访问/hacker/index.html。任何一条Disallow记录为空，也就是说在多条Disallow记录下，只要有一条是写成“Disallow:”说明该网站的所有内容都允许被访问，在"/robots.txt"文件中，至少要有一条Disallow记录。

下面是Robot.txt的一些例子，只要把下列的任何一个代码保存为robots.txt，然后传到指定位置，就可以实现逃避搜索引擎的法眼：

例1. 禁止所有搜索引擎访问网站的任何部分：

User-agent: *
Disallow: /

例2. 允许所有的robot访问：

User-agent: *
Disallow:

例3. 禁止某个搜索引擎的访问：

User-agent: BadBot
Disallow: /

例4. 允许某个搜索引擎的访问：

User-agent: spider
Disallow:
User-agent: *
Disallow: /

例5. 一个简单例子：

在这个例子中，该网站有三个目录对搜索引擎的访问做了*，即搜索引擎不会访问这三个目录。需要注意的是对每一个目录必须分开声明，而不要写成 "Disallow: /cgi-bin/ /bbs/"。User-agent:后的* 具有特殊的含义，代表"any robot"，所以在该文件中不能有"Disallow: /bbs/*" or "Disallow: *.gif"这样的记录出现.

User-agent: *
Disallow: /cgi-bin/
Disallow: /bbs/
Disallow: /~private/

热心网友时间：2023-09-16 02:24

在页面中根据“拒绝蜘蛛”协议加注拒绝收录的标记

热心网友时间：2023-09-16 02:25

你的网址百度肯定要去搜索，搜索到相关的内容后，把网址和相关内容一并存储起来！~
当网友搜索到相关的内容后，就会把你的网址显示出来！
所以，你网页头文件里没有内容就可以不被搜索存储起来了！~

热心网友时间：2023-09-16 02:24

在页面中根据“拒绝蜘蛛”协议加注拒绝收录的标记

热心网友时间：2023-09-16 02:25