python爬虫怎么不等页面全加载完

发布网友发布时间：2022-04-29 23:37

共1个回答

热心网友时间：2022-06-26 03:17

最关键是先要区分：静态网页还是动态网页
如果是静态html，get到的内容就是全部内容了，而且下一页会对应另外一个网址，接下来get它就行了。
绝大多数网页会有一些动态特性，比如，下一页网址不是一个独立的网址，简单点的可能是用onclick实现的，那么就不能利用网址直接get了，在python环境下，有很多driver，可以很好地模拟浏览器的行为
如果网页内容也是动态加载的，而且随着用户行为不同而不断变化，那么光get一个html document是不行的，此时就需要一个判断机制，什么时候网页上的内容显示全了？可以执行提取动作了？简单的实现就是等一个确定的时间；复杂一点的可以监控窗口事件，定一个判断标准，到时候就启动提取。要防止漏采，又要尽可能避免无谓的等待