如何通过web的方式开发配置,并调度监控自己的爬虫
发布网友
发布时间:2022-07-10 07:19
我来回答
共1个回答
热心网友
时间:2023-10-13 11:33
果有资金专门做这块的话,市面上已经存在火车头、八爪鱼 这样的抓取软件,小白用户用的还是不错的。
但是如果要对所有的爬虫进行统一管理和部署的话,需要有一个通用的框架,类似 Hadoop中 确定了 map和rece的接口,在里面实现所有的抓取操作,对于任务的分配,如果是java的话,就需要提交jar包之类的。
另外是心跳机制,如何确定一个爬虫在按照既有的规则在执行,别当了之后还不知道,这个时候心跳中就可以存储 当前抓取的数据量、异常数、当前程序运行时间等。这个可以通过监测管理页面来展示等。
另外就是如果是抓取同类别的爬虫,比如新闻类 这个通用框架是没有问题的,但是在抓取特定数据的时候 比如 企业信息、旅游数据等 这些都不按规则套路出牌,如果硬要套框架的话 就得不偿失了,反不如直接写代码来的顺手,毕竟网络采集 关注的是获取的数据,而不是获取的方式。