爬虫模块scrapy框架命令,requests模块,retrying模块,requests中session,response常用属性,json.dumps,json.loads,json.load

本文详细介绍了scrapy爬虫框架的使用,结合requests模块,讲解了retrying模块在请求重试中的应用,深入探讨了requests中session类的运用。同时,还涵盖了response对象的常见属性及其重要性。最后,文章阐述了JSON数据与Python字典之间的转换技巧,包括json.dumps、json.loads和json.load方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.scrapy框架
创建项目:scrapy startproject 项目名
创建爬虫:cd 项目名下  ,scrapy genspider 爬虫名 allowed_domains(网站)
开启爬虫:scrapy crawl 爬虫名
2.requests模块
proxies = {"http": "http://127.0.0.1:8080"}  # proxies格式,key为协议,value为:协议+ip地址+端口
headers = {"User-Agent": "xxx", "Cookie": "cookie_str"}  # cookie可以写在headers中,此时cookie为str
cookie_dict = {i.split("=")[0]:i.split("=")[1] for i in cookie.split("; ")}
request.get(url,headers=headers,proxies=proxies,cookies=cookie_dict,timeout=3)  # get请求;proxies为字典类型,表示代理;cookie_dict为字典类型
request.post(url,data=data)  # post请求
proxies={协议:协议+ip+端口}
verify=False  # request处理证书错误
timeout=3  # 超时参数
retrying模块的使用
@retry(stop_max_attempt_number=3) #最大重试3次,3次全部报错,才会报错
def _parse_url(url)
    response = requests.get(url, headers=headers, timeout=3) #超时的时候回报错并重试
    assert response.status_code == 200 #状态码不是200,也会报错并充实
    return response


def parse_url(url)
    try: #进行异常捕获
        response = _parse_url(url)
    except Exception as e:
        print(e)
        response = None
    return response
3.requests中session类如何使用
session=requests.Session()
session.post(url,data)  # cookie保存在session
session.get(url)带上之前的cookie
4.response常用属性
response = requests.get(url)

response.url  # 当前响应的url地址
response.text  # str,修改编码方式response.encoding='gbk'
response.content  # bytes,修改编码方式response.content.decode('utf8')
response.status_code  # 响应状态吗
response.request.headers  # 当前响应的请求头
response.headers  # 响应头
response.body  # 响应体,也就是html代码,默认是byte类型
5.json和字典数据的转换
json_str = json.dumps(mydict,indent=2,ensure_ascii=False)
# indent实现换行和空格
# ensure_ascii=False实现让中文写入的时候保持为中文
my_dict = json.loads(json_str)

#json.dump 实现把python类型写入类文件对象
with open("temp.txt","w") as f:
    json.dump(mydict,f,ensure_ascii=False,indent=2)

# json.load 实现类文件对象中的json字符串转化为python类型
with open("temp.txt","r") as f:
    my_dict = json.load(f)

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值