Python爬虫神器 requests 的高阶应用

最新推荐文章于 2025-05-25 09:44:49 发布

原创最新推荐文章于 2025-05-25 09:44:49 发布 · 226 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #Python爬虫 #网络爬虫 #Python编程 #编程语言

requests高阶应用

文件上传
很多人学习python，不知道从何学起。
很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。
很多已经做案例的人，却不知道如何去学习更加高深的知识。
那么针对这三类人，我给大家提供一个好的学习平台，免费领取视频教程，电子书籍，以及课程的源代码！
QQ群：101677771

import requests
#打开文件，注意要以rb形式打开
f = open('chn.jpg','rb')
files = {
    'file':f
}
res = requests.post(url='***',files = files)

会话维持

from requests import Session
1.实例化一个对象session = Session()
2.urlurl = '*****'
3.session.get()或者session.post(url=url.headers=headers)res = session.post(url=url.headers=headers)

证书验证

#ssl证书验证

#添加一个verify=false参数，禁止证书验证
import requests
url = '******'
#阻止抛出警告
requests.packages.urllib3.disable_warinings()

res = requests.get(url=url,verify=false)

代理设置

代理的分类：
透明代理ip：服务器知道你使用了代理，服务器能够获取爬虫真实的ip
匿名代理ip：服务器知道你使用了代理，服务器不能获取爬虫真实的ip
高匿代理ip：服务器不知道使用了代理，服务器不能获取爬虫真实ip
    
反爬：ip封禁--->使用代理ip

import requests
url = '*********'
proxies = {
    #或者是https
    'http':'http://ip地址:端口号',
}
res = requests.get(url=url,proxies = proxies)

超时设置

#超时设置
给予爬虫与服务器连接的时间限定，设置一个时间，在指定的时间内完成了正常的连接，不报错，如果没有完成，就会报错
#添加timeout参数，秒数
import requests
res=requests.get(url=url,timeout=0.1)

cookie的处理

#cookie的处理

#三种方法
2.cookiejar对象
3.自动封装cookie的类：Session

1.手动在headers中添加cookie的键值对
	import requests
	url = 'https://www.baidu.com/'
    headers = {
            'Cookie':'BIDUPSID=B63BDB40304991E9FF3159864CC9C302; PSTM=1586308511; BAIDUID=B63BDB40304991E9CC4E4ECFFCFFB23D:FG=1; BD_UPN=12314753; BDUSS=VWNmZu',
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
        }
    res = requests.get(url=url,headers=headers)
        
2.cookiejar对象
    import requests
    from requests.cookies import RequestsCookieJar
    
   	1.首先需要获取Cookies
    Cookie = ***********
    2.实例化一个jar对象
    jar = RequestsCookieJar()
    3.处理Cookies，封装进jar对象中
    for i in Cookie.split(','):
        #再次分割，分成dict的键值，每分割一次添加一次
        k,v = i.split('=',1)
        jar.set(k,v)
3.Session类，会话维持
    from requests import Session
    1.实例化一个对象
    session = Session()
    2.url
    url = '*****'
    headers={
        ...
    }
    data={
        ....
    }
    3.session.get()或者session.post(url=url.headers=headers)
    res = session.post(url=url,headers=headers,data=dat)