问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

怎么使用python获取淘宝数据

发布网友 发布时间:2022-04-27 04:12

我来回答

3个回答

懂视网 时间:2022-04-18 06:15

这次的主要的目的是从淘宝的搜索页面获取商品的信息。其实分析页面找到信息很容易,页面信息的存放都是以静态的方式直接嵌套的页面上的,很容易找到。主要困难是将信息从HTML源码中剥离出来,数据和网页源码结合的很紧密,剥离数据有一定的难度。

然后将获取的信息写入excel表格保存起来,这次只爬取了前面10页的内容。

代码如下:

import requests
import re
from xlwt import Workbook
import xlrd
import time
def key_name( number ):
 #获取页面的内容并返回
 name = '手机'
 URL_1 = "https://s.taobao.com/search?ie=utf8&initiative_id=staobaoz_20170905&stats_click=search_radio_all%3A1&js=1&imgfile=&q="
 URL_2 = "&suggest=0_1&_input_charset=utf-8&wq=u&suggest_query=u&source=suggest&p4ppushleft=5%2C48&s="
 URL = ( URL_1 + name + URL_2 + str(number))
 #print(URL)
 res = requests.get( URL )
 return res.text
def find_date( text):
 #根据整个页面的信息,获取商品的数据所在的HTML源码并放回
 reg = r',"data":{"spus":[({.+?)]}},"header":'
 reg = re.compile(reg)
 info = re.findall(reg, text)
 return info[0]
def manipulation_data( info, N, sheet ):
 #解析获取的HTML源码,获取数据
 Date = eval(info)
 for d in Date:
 T = " ".join([t['tag'] for t in d['tag_info']])
 #print(d['title'] + '	' + d['price'] + '	' + d['importantKey'][0:len(d['importantKey'])-1] + '	' + T)
 
 sheet.write(N,0,d['title'])
 sheet.write(N,1,d['price'])
 sheet.write(N,2,T)
 N = N + 1
 return N
 
 
def main():
 
 book = Workbook()
 sheet = book.add_sheet('淘宝手机数据')
 sheet.write(0,0,'品牌')
 sheet.write(0,1,'价格')
 sheet.write(0,2,'配置')
 book.save('淘宝手机数据.xls')
 #k用于生成链接,每个链接的最后面的数字相差48.
 #N用于记录表格的数据行数,便于写入数据
 k = 0
 N = 1
 for i in range(10+1):
 text = key_name( k + i * 48 )
 info = find_date(text)
 N = manipulation_data( info ,N, sheet )
 
 book.save('淘宝手机数据.xls')
 print('下载第' + str(i) + '页完成')
if __name__ == '__main__':
 main()

更多Python相关技术文章,请访问Python教程栏目进行学习!

热心网友 时间:2022-04-18 03:23

两种方法:

网络爬虫。使用urllib2和BeautifulSoup(或者正则表达式)去抓取网页数据,大部分的网站都要这么做。

淘宝开放平台SDK。申请一个sdk用户,然后调用API。支持python2.7以上版本。

热心网友 时间:2022-04-18 04:41

这个和用不用python没啥关系,是数据来源的问题。

调用淘宝API,使用 api相关接口获得你想要的内容,我 记得api中有相关的接口,你可以看一下接口的说明。
用python做爬虫来进行页面数据的获取。

希望能帮到你。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
工科考研50分数学能过国家线吗 数一工科国家线一般多少分 笔记本电脑无线连接epson爱普生打印机wifi怎么连接 爱普生如何无线连接 身份证注销了银行卡还可以用吗 8424西瓜是哪里产的? 一个人开两个支付宝是同一个二维码吗 买个衣服很生气,投诉无门, 拉夏贝尔衣服可以退吗 断桥铝门窗有多少种 《梦游天姥吟留别》中梦游的主体部分是哪一段? 梦游天姥吟留别 梦游的心境和所见所闻 python爬虫怎样接收后端接口并向后端传送数据 从外国往哈尔滨邮信应该怎样写地址?? python 爬虫怎么提供http接口 哈尔滨企业邮箱 《梦游天姥吟留别》中诗人梦游奇境的过程中发生了怎么的变化? 求助,哈尔滨企业的邮箱! 哈尔滨企业邮箱有哪些? 梦游天姥吟留别作者梦游的心境和所见所闻 黑龙江省哈尔滨市A300号邮政信箱详细地址 哈尔滨博实自动化股份有限公司电话是多少? 哈尔滨宇龙自动化有限公司电话是多少? 哈尔滨鑫华航空工业股份有限公司电话是多少? 制作榴莲饼的时候,如何做出脆脆的感觉? 哈尔滨和平公墓殡葬管理有限公司电话是多少? 中国铁路哈尔滨局集团有限公司电话是多少? 纯手工·榴莲饼怎么做 哈尔滨呼兰区邮箱号码是什么 哈尔滨国际商品交易中心有限公司电话是多少? 上海可以提取公积金装修房子吗 未满18岁可以考驾照吗 晚安未安是什么意思? 带未安的成语? 考驾照是不是必须年满18周岁才能考啊 差一个月才满18周岁可以考驾照吗? 窃所未安什么含义? 十八岁还差一个多月可以学车考驾照吗? 未成年可以考驾照吗? 诗漾未安什么意思? 未安装应用程序是什么意思? 未满18岁可以考驾照吗? 打电话显示未安装此应用怎么办 上驾校报名不满18周岁可以吗? 虎鞭怎么泡酒,生泡还是熟泡 未满18岁能不能考驾照? 关于虎鞭功效,怎么吃的问题? 18周岁才可以考驾照吗? 虎鞭酒怎么泡? 手机的软件突然显示未安装怎么办