问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

怎样预防网站万能信息采集器及吸血鬼等软件搜取自己网站上的数据_百度...

发布网友 发布时间:2022-04-29 07:37

我来回答

1个回答

热心网友 时间:2022-04-22 05:15

防采集的一些思路的探讨

1、用不同的模板
对于用程序的网站来说,不大可行,一个网站的模板最多也就几套吧。

2、使用robots禁止访问网页目录
这个方法可以有效的防止采集,不过将搜索引擎也封掉了,对于靠搜索引擎吃饭的站长们来说,得不偿失。
一个例子,Disallow 后面就是禁止访问的目录:

User-agent: *
Disallow: /admin
Disallow: /attachments
Disallow: /images
Disallow: /forumdata
Disallow: /include

3、使用HTTP_REFERER禁止采集,发现来自非本站连接就禁止察看叶面,就像前一段落伍im286.net防DDOS那个禁止调用一样。
这个方法可以比较有效的防止采集,不过也一样把搜索引擎封掉了,对于靠搜索引擎吃饭的站长们来说,得不偿失。
对高手无效,因为HTTP_REFERER可以伪造。但对一般使用采集的人来说,已经足够应付了。
例:

php
if(preg_replace("/https?://([^/]+).*/i", "1", $HTTP_SERVER_VARS['HTTP_REFERER']) != $HTTP_SERVER_VARS['HTTP_HOST']) {
exit('警告----你的操作已经被禁止。http://www.ic98.com');
}

4、使用HTTP_REFERER伪造内容
这个方法可以比较有效的防止采集,不过对于搜索引擎来说,查到的东西跟你伪造的东西一样的,可能会影响收录。(如有不对,请高手指出)
同上,对于高手无效。

5、使用java加密内容。
这个可能会比较有效,但是我对java一窍不通,也就不清楚如何入手了。
但我想,既然你这样使得别人采集到乱码,搜索引擎有可能也是收录到乱码的(我不清楚搜索引擎怎么工作,不过我猜测他们是察看网页源代码的。),也就影响收录。

6、使用java加密网址
同上,有可能让搜索引擎无法搜索到你的网页。

7、生成pdf文件、生成图片
这个方法可以比较有效的防止采集,不过照样让搜索引擎望而却止。

8、加上自己的版权信息
这个方法最大的好处就是不影响搜索引擎,效果马马虎虎,一般上可以让采集者采集到带有自己版权的稿件内容。但是对于可以过滤广告的采集程序来说,不大有效。

以下是作者给俺的PM:

Quote:
你的版权是不是加了你的网站和网址?
只要把网址和网站名替换成他的就可以了啊.这样还让他有了版权功能呢.
反正防采真是头疼....

有点麻烦,我的思路是将网站名称分成一个一个字来显示,他不可能将每个字都替换掉吧?不过要这样我就没办法了。比如说我将我的 武侠网 拆开,分成

武侠网

,$rand_color*是随机颜色,可以自己控制的,如果是动态网页的话,还配合HTTP_REFERER来搞随机,这样子随机性就更大了。一般上,尽量制造难度就是了。模板也可以制造随机性,几个相似的模板轮流来弄,这样子让人采集的难度更大。

不过说实话,要使他们真要搞,那是没办法的事,不过至少要花他们很多的时间去研究。在此之前,他们可能没耐性转向别的站了。

另外,最好不要让人知道你使用随机函数。一般人只是稍微看一下网页代码,就开始采集了。

其实俺地网站也喜欢采集别家的东东,我感觉只要是好的东东,就应该大家一起分享嘛,要真是机密数据,那就最好在每个页面上加随机密码了,但这样也会使搜索引擎找不到你的,得不偿失呀

参考资料:http://www.flashmayi.com

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
RDL是什么意思 报税软件是什么意思 某公司的财务报表管理软件属于 报表系统指的是什么? 怎么玩真三最好?我是新手选什么英雄最好? 真三新手玩什么英雄好? 最近玩魔兽真三,想请问一下高手,初期用什么英雄最好,新手攻略 新手玩真三选什么英雄好啊 ...离泡还有一段距离的地方好几片红,红的地方又疼又痒的,怎么办... 眼角出了好多小水疱.医生说是疱疹.怎么办 文章采集算是盗链吗? 水淼万能采集器通过采集文章url列表得到的文章是原创吗 赛数DSC全能影像采集系统被称为当前最高端的扫描仪是否名副其实? 掌易搜大数据精准信息采集系统是不是真的? 全球鹰大数据智能采集系统是真实的吗? 怎样预防《网站万能信息采集器》 及吸血鬼等软件搜取自己网站上的数据 大数据采集系统,app采集数据是真的吗? 万能文章的采集大家能用吗? 美的电压力锅怎么煮粥? 美的电压力锅SS5048P 第一次预约时间3小时候 第二次使用时 按了取消键还是不能选别的预约时间 美的12PCS502A1电压力锅预约功能怎样使用 美的pls5011电压力锅的说明书没有了。不知道怎么煮粥 美的电压力锅预约功能最低时间是多少 美的电压力锅my_lz50预约煮粥使用方法 青炒黄豆芽怎么做好吃 美的电压力锅PLS508如何煮粥 素炒黄豆芽的做法步骤图,素炒黄豆芽怎么做好吃 黄豆芽怎么炒好吃又健康? 中国人民银行泰币兑换是多少? 4仟元人民币对换是多少 泰铢汇率20.5怎么兑 水淼万能文章采集器采集的文章是怎么回事 求一个新闻采集系统? 水淼万能文章采集器采集的文章都是原创吗 网站数据采集问题 电脑怎么老弹出当前脚本错误的对话框 电脑总是弹脚本错误烦人啊怎么办 为什么电脑老是提示脚本错误啊? 华为手机分几个系列!?这几个系列的区别是什么?每个系列又有什么特点? 华为手机的外形特点描写? 洗衣机漏水,是哪里坏了? 浏览器老跳出脚本错误是怎么回事? 为什么我电脑总是弹脚本错误的提示框 为什么电脑老是提示脚本错误,是否继续在页面上运行? 洗衣机管漏水,哪里问题 烤牛肉片如何腌制 求!腌制烤牛肉的方法!+++加分! 小学作文开头怎么写 小学生作文开头方法有哪些 小学生作文的几种开头方法 菠萝削好了放了3天还能吃吗?