- 博客(5)
- 收藏
- 关注
原创 python爬虫数据提取——re(正则表达式)
通过urllib、requests获得的页面并不是我们真正想要的数据,得到页面数据后还需要对数据进行进一步加工,从而提取真正想要的数据,所以就需要使用正则、Xpath、bs等数据提取工具,帮我们提取想要的数据。
2023-11-21 21:58:50
563
1
原创 python爬虫requests库的高级应用
设置cookie的方法有两种,一种是直接将网页的cookie添加到请求头中,通过headers参数向网页发送请求;session是会话的意思,当浏览的页面需要一直保持登录状态时,可以使用session保持登录的状态,而不需每一次请求页面都需要携带cookie发送请求。4、利用set()方法设置每个cookie条目,通过requests库的cookies参数将cookie发送出去。2、通过session的cookie属性进行设置cookie值。把需要上传的文件通过 files 参数,然后携带文件发送请求。
2023-11-20 22:11:24
666
1
原创 python爬虫requests的基本使用
在发送请求的时候一般会有一个请求头Request Header,某些网站会检测请求头信息,识别请求是否是一个正常浏览器发送的,如果检测到不是正常的浏览器发出的,则会返回异常结果,导致页面抓取失败。reqests是python的第三方库,使用前需要安装好requests库。)获取响应的内容 ,还可以使用其他属性、方法来获得其他信息,比如状态码(2、将参数以字典的形式传给get方法的params参数。请求发送后,会得到响应,可以使用text(1、直接构建请求的url。使用pip3j进行安装。
2023-11-16 23:23:54
743
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人