Python马基础三课笔记
爬虫的工作原理
数据背后的秘密
找不到这双鞋子的销售数据怎么办?
曲线救国,通过评论数据间接得到鞋子的销售数据
如何找到评论区内容背后的URL?
(1)鼠标右击选择检查,打开程序员调试窗口,点击network(网络)
(2)刷新当前页面
(3)复制一小段评论区内容,然后在程序员调试窗口点击放大镜?,粘贴
(4)点击刷新小圆圈?查找
(5)点击查询结果的第二行,跳转到对应的请求
(6)点击Headers,找到Request URL即几评论区数据背后的URL
Python代码解析数据
(1)打开网页工具 www.json.cn
(2)将数据整理成Json格式:以大括号开头和结尾
(3)找到目标数据值对应的名字
Python replace语法
replace为替换的意思,可以使用replace把任何不想要的数据替换成一个新值
此处是为了截取掉不符合json格式的内容,才可以用json.loads
content = resp.text
rest = content.replace('需替换掉的内容',’可为空‘)
json_data = json.loads(rest)
学会引入openpyxl工具包存储数据
(1)创建一个Excel表格
(2)创建一个sheet
(3)在sheet里面保存数据
(4)把表格保存在一个磁盘里,用的网盘
import requests
import json
import openpyxl
wk = openpyxl.Workbook()
sheet = wk.create_sheet()
resp = requests.get('https://api.m.jd.com/?appid=item-v3&functionId=pc_club_productPageComments&client=pc&clientVersion=1.0.0&t=1686542157879&loginType=3&uuid=122270672.16863832431791350370939.1686383243.1686383249.1686541921.2&productId=100011323932&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1&bbtf=&shield=')
content = resp.text
json_data = json.loads(content)
comments = json_data['comments']
for item in comments:
color = item['productColor']
size = item['productSize']
sheet.append([color,size])
wk.save('data/王小二.xlsx')
数据可视化分析
import openpyxl
import matplotlib.pyplot as plt
wk = openpyxl.load_workbook('data/王小二.xlsx')
sheet = wk['Sheet1']
colors = []
sizes = []
for i in range(1,11):
colors.append(sheet['A'+str(i)].value)
sizes.append(sheet['B'+str(i)].value)
color_class = set(colors)
count = len(colors)
color_percent=[]
for clr in color_class:
color_percent.append(colors.count(clr)/count)
plt.pie(x=color_percent,labels=color_class,autopct='%1.1f%%')
plt.rcParams['font.sans-serif']=['SimHei']
plt.legend()
plt.savefig('data/王小二.png')