2021/4/26爬虫课第一次周复盘

本文介绍了Python中使用urllib和requests库进行Post请求的方法,包括数据编码、响应解析及处理乱码问题。同时,讨论了反反爬策略,如设置User-Agent、Cookie和使用代理。最后,强调了在实际操作中找到正确URL的重要性,并提供了检查响应数据的技巧。

一、urllib实现Post请求

注意点

data = urllib.parse.urlencode(data)
data = bytes(data)

import json
html = res.read().decode('utf-8')
# 解析数据
# json类型的str --> python类型的字典
r_dict = json.loads(html)

二、requests库

'''
如果出现乱码
第一种方式response.content.decode('utf-8')
第二种 response.encoding = 'utf-8'   response.text
'''

四、反反爬

  • U-A
  • Cookie
  • proxies
    都是k-v形式

其他可能参数:verify

五、总结

关键是找对URL,最终的URL可能还要修改
预想的response在“检查”中的’response’或’preview’中查找
一些标识符命名技巧:

  • ans=0#最终答案
  • count=[]#定义计算列表
    encode和decode使用
    在计算机内存中,统一使用 Unicode 编码,当需要保存到硬盘或者需要传输的时候,
    就转换为 UTF-8 编码。
  • 内存
    内存是计算机中重要的部件之一,它是与CPU进行沟通的桥梁。计算机中所有程序的运行都是在内存中进行的,因此内存的性能对计算机的影响非常大。内存(Memory)也被称为内存储器,其作用是用于暂时存放CPU中的运算数据,以及与硬盘等外部存储器交换的数据。只要计算机在运行中,CPU就会把需要运算的数据调到内存中进行运算,当运算完成后CPU再将结果传送出来,内存的运行也决定了计算机的稳定运行。 内存是由内存芯片、电路板、金手指等部分组成的。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

笔记本IT

您的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值