问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

豆瓣电影上的演员图片可以用下图高手批量采集到电脑吗?

发布网友 发布时间:2022-04-18 06:47

我来回答

2个回答

懂视网 时间:2022-04-18 11:09

一、先上效果

  

二、安装Scrapy和使用

  官方网址:。

  安装命令:pip install Scrapy

  安装完成,使用默认模板新建一个项目,命令:scrapy startproject xx

  

  上图很形象的说明了,scrapy的运行机制。具体各部分的含义和作用,可自行百度,这里不再赘述。我们一般,需要做的是以下步骤。

  1)配置settings,其他配置可根据自己的要求查看文档配置。

DEFAULT_REQUEST_HEADERS = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.10 Safari/537.36'}
DOWNLOAD_TIMEOUT = 30IMAGES_STORE = 'Images'

  2)定义items类,相当于Model类。如:

class CnblogImageItem(scrapy.Item):
 image = scrapy.Field()
 imagePath = scrapy.Field()
 name = scrapy.Field()

  3)配置下载中间件,下载中间件的作用是自定义,怎么发请求。一般有处理代理的中间件、PhantomJs的中间件等。这里,我们只用到代理中间件。

class GaoxiaoSpiderMiddleware(object):def process_request(self, request, spider):if len(request.flags) > 0 and request.flags[0] == 'img':return None
 driver = webdriver.PhantomJS()# 设置全屏 driver.maximize_window()
 driver.get(request.url)
 content = driver.page_source
 driver.quit()return HtmlResponse(request.url, encoding='utf-8', body=content)class ProxyMiddleWare(object):def process_request(self, request, spider):
 request.meta['proxy'] = 'http://175.155.24.103:808'

  4)编写pipeline,作用是处理从Spider中传过来的item,保存excel、数据库、下载图片等。这里给出我的下载图片代码,使用的是官方的下载图片框架。

class CnblogImagesPipeline(ImagesPipeline):
 IMAGES_STORE = get_project_settings().get("IMAGES_STORE")def get_media_requests(self, item, info):
 image_url = item['image']if image_url != '':yield scrapy.Request(str(image_url), flags=['img'])def item_completed(self, result, item, info):
 image_path = [x["path"] for ok, x in result if ok]if image_path:# 重命名if item['name'] != None and item['name'] != '':
  ext = os.path.splitext(image_path[0])[1]
  os.rename(self.IMAGES_STORE + '/' + image_path[0], self.IMAGES_STORE + '/' + item['name'] + ext)
  item["imagePath"] = image_pathelse:
  item['imagePath'] = ''return item

  5)编写自己的Spider类,Spider的作用是配置一些信息、起始url请求、处理响应数据。这里的下载中间件配置、pipeline,可以放在settings文件中。这里我放在,各自的Spider中,因为项目中包含多个Spider,相互之间用的下载中间件不同,因此分开配置了。

# coding=utf-8import sysimport scrapyimport gaoxiao.itemsimport json
reload(sys)
sys.setdefaultencoding('utf-8')class doubanSpider(scrapy.Spider):
 name = 'douban'allowed_domains = ['movie.douban.com']
 baseUrl = ''start = 0
 start_urls = [baseUrl + str(start)]
 custom_settings = {'DOWNLOADER_MIDDLEWARES': {'gaoxiao.middlewares.ProxyMiddleWare': 1,#  'gaoxiao.middlewares.GaoxiaoSpiderMiddleware': 544 },'ITEM_PIPELINES': {'gaoxiao.pipelines.CnblogImagesPipeline': 1,
 }
 }def parse(self, response):
 data = json.loads(response.text)['subjects']for i in data:
  item = gaoxiao.items.CnblogImageItem()if i['cover'] != '':
  item['image'] = i['cover']
  item['name'] = i['title']else:
  item['image'] = ''yield itemif self.start < 400:
  self.start += 20yield scrapy.Request(self.baseUrl + str(self.start), callback=self.parse)

热心网友 时间:2022-04-18 08:17

直接一段pathon代码,能秒下载本网页的所有图片
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
导购什么字 店面导购员是什么意思 HKEY_LOCAL_MACHINE\SOFTWARE\Macromedia\FlashPlayer\SafeVersions... 无法安装adobeflashplayer,说无法注册ACTIVEX的控件 无法注册flash player的activex怎么办 omniverse create 他总说无法注册Flash player的Active控件 然后什么访问以下链接。不要... excel如何用进度条的形式表示完成率 买了件速干衣,北面的,求大神看一下真假。 秦皇岛银谷全城热恋是不是要预定票啊 有没一些好看的耽美文 求清风的小说!谢谢 求清风的小说!谢谢~ 求清风大人的小说。ps:是耽美小说,找了很久也没啊 赛尔号奇拉塔顿厉害还是塔奇拉顿厉害 你好,求警察三部曲by清风txt,谢谢啦 清风的小说 求乳牛by清风 百度云 可以求书吗?想要清风的作品《警察》《乳牛》等 掉叶子后 多肉久久不长新叶 是怎么回事? 多肉长高了怎么处理方法 多肉砍头后,只发根不长叶,发了很多根,上面叶片也软了,但没有发新 求教多肉植物为啥只长高不长大,求救求救 多肉乙女心只长高不长叶怎么回事 多肉叶插只长根不长叶怎么办?? 多肉植物只往高长,怎么办 小花盆里养的多肉只长茎不长叶,是哪里出了问题? 赛尔号奇拉塔顿和塔奇拉顿哪个好 赛尔号地面系精灵哪个好? 赛尔号打奇拉塔顿加什么学习力 急求清风大人的小说~~~ 戚薇和李承铉谁大 求清风的小说 剑网3风雷刀谷千雷殿通关攻略 风雷刀谷千雷殿怎么打 千雷殿老三是内防boss还是外防boss 剑网三千雷殿怎么打 千雷殿副本攻略 世界当代艺术家排名?当代艺术排行榜?世界当代艺术家排名? 英雄千雷殿能单刷吗 剑网3千雷殿柳秀岳怎么打 柳秀岳打法攻略 著名的艺术家排行榜?中国美术艺术家名人榜?十大艺术家? 剑网3千雷殿金木水火土矿车怎么分辨,不看标记 剑网3千雷殿伊玛目怎么打 剑网3千雷殿伊 剑三千雷殿任务 变质的刀 怎么做 有人知道千雷殿,变质的刀这个任务怎么做吗 千雷殿 柳秀岳怎么看出的什么buff 剑网三25人千雷殿当老板要交押金吗 玄甲苍云怎样快速弄到一身拆招装 千雷殿老二打车的时候是看伤害量还是次数 杭州画室排名前十位的有哪些? 剑网三10人千雷殿共战buff有用吗?