Python爬虫采集遇到403问题怎么办?
发布网友
发布时间:2022-04-25 23:43
我来回答
共3个回答
热心网友
时间:2022-05-10 11:02
403是网页状态码,表示访问拒绝或者禁止访问。
应该是你触发到网站的反爬虫机制了。
解决方法是:
1.伪造报文头部user-agent(网上有详细教程不用多说)
2.使用可用代理ip,如果你的代理不可用也会访问不了
3.是否需要帐户登录,使用cookielib模块登录帐户操作
4.如果以上方法还是不行,那么你的ip已被拉入黑名单静止访问了。等一段时间再操作。如果等等了还是不行的话:
使用phatomjs或者selenium模块试试。
还不行使用scrapy等爬虫框架看看。
以上都不行,说明这网站反爬机制做的很好,爬不了了,没法了,不过我觉得很少有这种做得很好的网站
热心网友
时间:2022-05-10 12:20
1、通过Headers反爬虫:
从用户请求的Headers反爬虫是最常见的反爬虫策略。可以直接在爬虫中添加Headers,将浏览器的User-Agent复制到爬虫的Headers中;或者将Referer值修改为目标网站域名。对于检测Headers的反爬虫,在爬虫中修改或者添加Headers就能很好的绕过。
2、基于用户行为反爬虫:
直接使用芝麻IP代理,高匿名。
去测试一下,看一看具体是什么问题。
热心网友
时间:2022-05-10 13:54
618IP代理为您解答
您好,一般您说的更换IP的软件,使用体验好的都是付费软件,免费的要么不好用,要么有安全隐患,不建议您使用免费的IP更换软件。希望能够帮到您。