发布网友 发布时间:2022-04-20 06:11
共1个回答
热心网友 时间:2022-07-14 03:31
说起这个话题,我上半年很重要的一部分工作就是开发了一个大型的分布式爬虫系统和一个新闻热点分析工具。因此,你的问题我最有发言权,我简单说说我的做法,我是把主要的导航网站找来,把它们关于新闻资讯的网站地址全拿来筛选一遍,选出有代表性的主流媒体网站和地方资讯网站,然后让爬虫系统去爬取4~5层深度的页面数据回来做分析测试数据,为避免无关数据干扰和加快爬取速度,我在爬行时,采用正则表达式和关键词过滤链接地址和正文内容。数据爬回来后,可用的分析算法很多,分词处理后,我一般用聚类算法、规则关联算法这些。