python爬虫怎么不等页面全加载完
发布网友
发布时间:2022-04-29 23:37
我来回答
共1个回答
热心网友
时间:2022-06-26 03:17
最关键是先要区分:静态网页 还是 动态网页
如果是静态html,get到的内容就是全部内容了,而且下一页会对应另外一个网址,接下来get它就行了。
绝大多数网页会有一些动态特性,比如,下一页网址不是一个独立的网址,简单点的可能是用onclick实现的,那么就不能利用网址直接get了,在python环境下,有很多driver,可以很好地模拟浏览器的行为
如果网页内容也是动态加载的,而且随着用户行为不同而不断变化,那么光get一个html document是不行的,此时就需要一个判断机制,什么时候网页上的内容显示全了?可以执行提取动作了?简单的实现就是等一个确定的时间;复杂一点的可以监控窗口事件,定一个判断标准,到时候就启动提取。要防止漏采,又要尽可能避免无谓的等待