Python爬虫采集遇到403问题怎么办?

发布网友发布时间：2022-04-25 23:43

共3个回答

热心网友时间：2022-05-10 11:02

403是网页状态码，表示访问拒绝或者禁止访问。

应该是你触发到网站的反爬虫机制了。

解决方法是：

1.伪造报文头部user-agent（网上有详细教程不用多说）
2.使用可用代理ip，如果你的代理不可用也会访问不了
3.是否需要帐户登录，使用cookielib模块登录帐户操作

4.如果以上方法还是不行，那么你的ip已被拉入黑名单静止访问了。等一段时间再操作。如果等等了还是不行的话：

使用phatomjs或者selenium模块试试。

还不行使用scrapy等爬虫框架看看。

以上都不行，说明这网站反爬机制做的很好，爬不了了，没法了，不过我觉得很少有这种做得很好的网站

热心网友时间：2022-05-10 12:20

1、通过Headers反爬虫：
从用户请求的Headers反爬虫是最常见的反爬虫策略。可以直接在爬虫中添加Headers，将浏览器的User-Agent复制到爬虫的Headers中;或者将Referer值修改为目标网站域名。对于检测Headers的反爬虫，在爬虫中修改或者添加Headers就能很好的绕过。
2、基于用户行为反爬虫：
直接使用芝麻IP代理，高匿名。
去测试一下，看一看具体是什么问题。

热心网友时间：2022-05-10 13:54

618IP代理为您解答
您好，一般您说的更换IP的软件，使用体验好的都是付费软件，免费的要么不好用，要么有安全隐患，不建议您使用免费的IP更换软件。希望能够帮到您。