实用工具(爬虫)-手把手教你爬取图片,百度、Bing、Google
发布网友
发布时间:2024-10-01 05:05
我来回答
共1个回答
热心网友
时间:2024-10-17 23:37
百度+Bing爬取:
工具代码地址:github.com/QianyanTech/...
步骤:在Windows系统中,输入关键词,如"狗,猫",不同关键词会自动保存到不同文件夹。
支持中文与英文,同时爬取多个关键词时,用英文逗号分隔。
可选择爬取引擎为Bing或Baidu,Google可能会遇到报错问题。
Google爬取:
工具开源地址:github.com/Joeclinton1/...
在Windows、Linux或Mac系统中执行。
使用命令格式:-k关键字,-l最大下载数量,--chromedriver路径。
在chromedriver.storage.googleapis.com下载对应版本,与Chrome浏览器版本相匹配。
下载链接为chromedriver.chromium.org...
遇到版本不匹配时,可尝试使用不同版本的chromedriver,但需注意8系列版本可能无法使用。
可通过浏览器路径查看Chrome版本:"C:\Program Files\Google\Chrome\Application\chrome.exe" 或 "C:\Users\sts\AppData\Local\Google\Chrome\Application\chrome.exe"。
解决WebDriver对象找不到特定属性的报错问题:修改源代码三处。
图像去重:
使用md5码进行图像去重。将文件夹下的图像生成md5码,并写入md5.txt文件中。
使用脚本统计md5码,过滤重复图像。
以上内容提供了一套详细的图片爬取流程,包括工具的选择、关键词输入、多引擎支持、版本匹配、错误处理以及图像去重的方法。确保在使用过程中关注系统兼容性和版本匹配问题,以获得高效和准确的爬取结果。