爬虫初学3

京东爬评论——找到目标网页的json,保存到本地

import requests
import urllib3  #urllib 侧重于 url 基本的请求构造,urllib2侧重于 http 协议请求的处理,而 urllib3是服务于升级的http 1.1标准,且拥有高效 http连接池管理及 http 代理服务的功能库
import json
import urllib
import urllib.request
from bs4 import BeautifulSoup   #Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。
# 1、json.dumps()和json.loads()是json格式处理函数(可以这么理解,json是字符串)
#   (1)json.dumps()函数是将一个Python数据类型列表进行json格式的编码(可以这么理解,json.dumps()函数是将字典转化为字符串)
#   (2)json.loads()函数是将json格式数据转换为字典(可以这么理解,json.loads()函数是将字符串转化为字典)
#
# 2、json.dump()和json.load()主要用来读写json文件函数
for i in range(0, 14):
    #https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=977560&score=0&sortType=5&page=1&pageSize=10&isShadowSku=0&rid=0&fold=1
    url1 = 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=977560&score=0&sortType=5&page='
    url2 = str(0)
    uel3 = '&pageSize=10&pin=null&_=1584241238668'
    finalurl = url1 + url2 + uel3
    finalurl = "https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=977560&score=0&sortType=5&page=1&pageSize=10&isShadowSku=0&rid=0&fold=1"
    xba = requests.get(finalurl)
    #保存数据
    u1 = "D:\python\pycharm python\Scrapy ture\jingdong1\\"
    u2 = str(i)
    u3 = ".json"
    finalu = u1+u2+u3
    file = open(finalu, "w")
    file.write(xba.text)
print("finished")


# 版权声明:本文为优快云博主「XVII丶B」的原创文章,遵循
# CC
# 4.0
# BY - SA
# 版权协议,转载请附上原文出处链接及本声明。
# 原文链接:https: // blog.youkuaiyun.com / qq_34696236 / article / details / 80511940

博主:「XVII丶B」
链接:https: // blog.youkuaiyun.com / qq_34696236 / article / details / 80511940

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值