问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

java开源web爬虫哪个好用?

发布网友 发布时间:2022-04-30 07:33

我来回答

2个回答

热心网友 时间:2022-06-19 03:22

Lucene+nutch+heritrix网上可以找得到源代码,开源的搜索引擎,包含爬虫、检索等功能。

Heritrix是一个爬虫框架,可加如入一些可互换的组件。 它的执行是递归进行的,主要有以下几步: 1。在预定的URI中选择一个。 2。获取URI 3。分析,归档结果 4。选择已经发现的感兴趣的URI。加入预定队列。 5。标记已经处理过的URI 是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的 资源进行归档,建立网络数字图书馆,在过去的6年里,IA已经建立了400TB的数据。 最新版本:heritrix-1.15.4 IA期望他们的crawler包含以下几种: 宽带爬虫:能够以更高的带宽去站点爬。 主题爬虫:集中于被选择的问题。 持续爬虫:不仅仅爬更当前的网页还负责爬日后更新的网页。 实验爬虫:对爬虫技术进行实验,以决定该爬什么,以及对不同协议的爬虫 爬行结果进行分析的。 Heritrix的主页是http://crawler.archive.org Heritrix是一个爬虫框架,可加如入一些可互换的组件。 它的执行是递归进行的,主要有以下几步: 1。在预定的URI中选择一个。 2。获取URI 3。分析,归档结果 4。选择已经发现的感兴趣的URI。加入预定队列。 5。标记已经处理过的URI
[编辑本段]部件
主要部件
Heritrix主要有三大部件:范围部件,边界部件,处理器链 范围部件:主要按照规则决定将哪个URI入队。 边界部件:跟踪哪个预定的URI将被收集,和已经被收集的URI,选择下一个 URI,剔除已经处理过的URI。 处理器链:包含若干处理器获取URI,分析结果,将它们传回给边界部件
其余部件
WEB管理控制台:大多数都是单机的WEB应用,内嵌JAVA HTTP 服务器。 操作者可以通过选择Crawler命令来操作控制台。 Crawler命令处理部件:包含足够的信息创建要爬的URI。 Servercache(处理器缓存):存放服务器的持久信息,能够被爬行部件随时查到,包括IP地址,历史记录,机器人策略。 处理器链: 预取链:主要是做一些准备工作,例如,对处理进行延迟和重新处理,否决随后的操作。 提取链:主要是获得资源,进行DNS转换,填写请求和响应表单 抽取链:当提取完成时,抽取感兴趣的HTML,JavaScript,通常那里有新的也适合的URI,此时URI仅仅被发现,不会被评估 写链:存储爬行结果,返回内容和抽取特性,过滤完存储。 提交链:做最后的维护,例如,测试那些不在范围内的,提交给边界部件
[编辑本段]关键特性
Heritrix 1.0.0包含以下关键特性: 1.用单个爬虫在多个独立的站点一直不断的进行递归的爬。 2。从一个提供的种子进行爬,收集站点内的精确URI,和精确主机。 3。主要是用广度优先算法进行处理。 4。主要部件都是高效的可扩展的 5。良好的配置,包括: a。可设置输出日志,归档文件和临时文件的位置 b。可设置下载的最大字节,最大数量的下载文档,和最大的下载时间。 c。可设置工作线程数量。 d。可设置所利用的带宽的上界。 e。可在设置之后一定时间重新选择。 f。包含一些可设置的过滤机制,表达方式,URI路径深度选择等等。 Heritrix的局限: 1。单实例的爬虫,之间不能进行合作。 2。在有限的机器资源的情况下,却要复杂的操作。 3。只有官方支持,仅仅在Linux上进行了测试。 4。每个爬虫是单独进行工作的,没有对更新进行修订。 5。在硬件和系统失败时,恢复能力很差。

参考资料:http://ke.baidu.com/view/1571189.htm?fr=ala0_1_1

热心网友 时间:2022-06-19 03:22

nutch + hadoop = 搜索引擎
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
Linux系统安装FTP服务器 Linux系统的网络文件共享 建筑的七盏明灯的内容简介 面向对象设计七大原则 简单说 交互设计七大定律 交互设计的“根”——七大定律 交互设计原则和理论2——七大定律 七大设计原则 附近的加油站有哪些 附近的加油站有哪些地方 锅边怎么做好吃 通货膨胀发生后,我们居民购买哪些资产可以避免更大损失呢? 锅边的做法 春天种菜是早上种还是傍晚种 锅边糍怎么做如何做好吃 在未来,什么资产可以抵御通货膨胀?是房子吗? 菜种子什么时候种最好 一般纳税人出口退税的税率是怎么计算的 通货膨胀资产会被稀疏吗 锅边粉可以代替粘米粉 海鲜锅边怎么做才好吃? 什么资产可以抵御通货膨胀 种菜的话是早上播种好还是傍晚播种好 锅边糊和肠粉,用一样的粘米粉吗? 通胀时期最好的资产 锅边的做法,锅边怎么做 郑州开征房产税 一年四季种菜时间表 苹果手机系统自动更新我己经关了,为什么还老是自动下载10系统提醒我安装? 京东处于换货状态的情况下怎么退货 为什么说通货膨胀时期,公司的资产要升值? 通货膨胀下如何实现资产保值增值 java开源的爬虫框架(抓取数据) java可以写爬虫吗 资产价格通货膨胀 通货膨胀时金融资产的价值问题 求java网络爬虫的源代码 关于通货膨胀和资产泡沫的问题。 通货膨胀对资产负债表的影响举例 大论文参考文献用了尾注,要在最后加入综述,又有参考文献,如何在尾注后另起一页。 在通胀背景下资产如何保值增值? 自动生成目录 通胀时期怎样做到资产保值 插入尾注为什么参考文献转PDF有空白页 微信把好友拉黑了 如果我没解除黑名单 对方能发送好友验证吗? word2007中参考文献已经生成,如何在其后添加新的空白页?多谢!!! 对方把你微信加入黑名单后还可以发送验证请求嘛 在微信上对方把我拉黑了,好友验证还能从我这里发出去吗? 在微信上对方把你拉黑了,你加她好友的验证,还能从你这里发出去吗?微信被好友拉黑,我们没有共同好友,_百度问一问 养老金实现“16连涨”,民生保障待遇究竟如何?