后天就是端午节了,小编现在还没有买到合适的粽子,所以打开淘宝,搜索了1959条粽子的数据,然后进行了可视化分析,最终找到最适合入手的粽子~
01
数据采集
淘宝网站是一个动态加载的网站,我们之前可以采用解析接口或者用selenium自动化测试工具来爬取数据,但是现在淘宝对接口进行了加密,使我们很难分析出来其中的规律,同时淘宝也对selenium进行了反爬限制,所以我们要换种思路来进行数据获取。

因为篇幅问题,数据采集的方式在这里就不在过多的讲解,有兴趣的小伙伴可以看看这篇文章用Requests+Cookie,轻松获取淘宝商品数据!,它详细的介绍了淘宝商品数据的获取方式,我们这里只展示核心代码:
response = requests.get('https://s.taobao.com/search', headers=headers, params=params)
shangpinming = re.findall('"raw_title":"(.*?)"', response.text)
jiage = re.findall('"view_price":"(.*?)"', response.text)
fahuodi = re.findall('"item_loc":"(.*?)"', response.text)
fukuanrenshu = re.findall('"view_sales":"(.*?)人付款"', response.text)
dianpumingcheng = re.findall('"nick":"(.*?)"', response.text)
for i in range(44):
try:
if (fukuanrenshu[i] == '1.5万+'):
f = 15000
elif (fukuanrenshu[i] == '1.0万

端午将至,博主通过Python爬虫获取了1959条淘宝粽子数据,进行了数据清洗和深度分析。发现粽子主要用于团购和送礼,浙江、上海、北京为粽子生产大省,100元以下粽子占市场一半,销量前20商家多数为五芳斋旗舰店,揭示了五芳斋粽子的热销趋势。
最低0.47元/天 解锁文章
1103

被折叠的 条评论
为什么被折叠?



