python爬取
环境:edge浏览器、pycharm
时间:2022/5/14
f12或者右键检查
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-X2Fpui0E-1652494693773)(C:\Users\ylzqm\AppData\Roaming\Typora\typora-user-images\image-20220514100241361.png)]
点击网络,刷新界面
选择需要爬取的位置:文件类别的复制、搜索、刷新
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2QNVOSYv-1652494693775)(C:\Users\ylzqm\AppData\Roaming\Typora\typora-user-images\image-20220514100434050.png)]
获取当前的url,复制下来
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EYN3BeNv-1652494693776)(C:\Users\ylzqm\AppData\Roaming\Typora\typora-user-images\image-20220514100626057.png)]
def pachong(page):
url = 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100004325476&score=0&sortType=5&page=%d&pageSize=10&isShadowSku=0&fold=1' % page
#此时我把page当成变量,所以令page=%d
可以在响应处查看json
通过json在线解析网站解析json:https://www.json.cn/
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RdtwDtW9-1652494693777)(C:\Users\ylzqm\AppData\Roaming\Typora\typora-user-images\image-20220514101131205.png)]
通过data.save(‘D:/aaa.xlsx’)命令存取爬取的数据到相应位置
附上示例代码
import json
from datetime import time
import requests
import openpyxl
# 创建xlsx文件
data = openpyxl.Workbook()
sheet = data.create_sheet()
def pachong(page):
url = 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100004325476&score=0&sortType=5&page=%d&pageSize=10&isShadowSku=0&fold=1' % page
resp = requests.get(url)
content = resp.text.replace('fetchJSON_comment98(', '').replace(');', '')
# print(resp.text)
# json格式转换
json_data = json.loads(content)
comments = json_data['comments']
for item in comments:
ctime = item['creationTime'];
color = item['productColor'];
size = item['productSize'];
# print(size, color, ctime)
sheet.append([color, size, ctime])
for i in range(2):
print("爬取第", i, '页')
pachong(i)
#time.sleep(5)
data.save('D:/aaa.xlsx')