python爬取

python爬取

环境:edge浏览器、pycharm

时间:2022/5/14


f12或者右键检查

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-X2Fpui0E-1652494693773)(C:\Users\ylzqm\AppData\Roaming\Typora\typora-user-images\image-20220514100241361.png)]

点击网络,刷新界面

选择需要爬取的位置:文件类别的复制、搜索、刷新

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2QNVOSYv-1652494693775)(C:\Users\ylzqm\AppData\Roaming\Typora\typora-user-images\image-20220514100434050.png)]

获取当前的url,复制下来

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EYN3BeNv-1652494693776)(C:\Users\ylzqm\AppData\Roaming\Typora\typora-user-images\image-20220514100626057.png)]

def pachong(page):
    url = 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100004325476&score=0&sortType=5&page=%d&pageSize=10&isShadowSku=0&fold=1' % page
    
    #此时我把page当成变量,所以令page=%d

可以在响应处查看json

通过json在线解析网站解析json:https://www.json.cn/

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RdtwDtW9-1652494693777)(C:\Users\ylzqm\AppData\Roaming\Typora\typora-user-images\image-20220514101131205.png)]

通过data.save(‘D:/aaa.xlsx’)命令存取爬取的数据到相应位置

附上示例代码

import json
from datetime import time

import requests
import openpyxl

# 创建xlsx文件
data = openpyxl.Workbook()
sheet = data.create_sheet()


def pachong(page):
    url = 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100004325476&score=0&sortType=5&page=%d&pageSize=10&isShadowSku=0&fold=1' % page
    resp = requests.get(url)
    content = resp.text.replace('fetchJSON_comment98(', '').replace(');', '')
    # print(resp.text)
    # json格式转换
    json_data = json.loads(content)
    comments = json_data['comments']
    for item in comments:
        ctime = item['creationTime'];
        color = item['productColor'];
        size = item['productSize'];
        # print(size, color, ctime)
        sheet.append([color, size, ctime])


for i in range(2):
    print("爬取第", i, '页')
    pachong(i)
    #time.sleep(5)
    data.save('D:/aaa.xlsx')
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值