学习爬虫day01

最新推荐文章于 2025-02-19 15:35:26 发布

V-Sugar

最新推荐文章于 2025-02-19 15:35:26 发布

阅读量311

点赞数

分类专栏： python # 爬虫文章标签： python 爬虫

本文链接：https://blog.youkuaiyun.com/weixin_43844838/article/details/107775272

版权

python 同时被 2 个专栏收录

56 篇文章

订阅专栏

爬虫

13 篇文章

订阅专栏

本文介绍了爬虫的基本概念，包括模拟浏览器发送请求、获取响应，并详细阐述了爬虫流程、数据提取、编码解码处理、requests模块的使用、文件保存方法以及如何判断请求是否成功。同时，探讨了URL编码问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

爬虫的概念

爬虫是模拟浏览器发送请求，获取响应

爬虫流程

url —> 发送请求，获取响应 —> 提取数据 —> 保存
发送请求，获取响应 —> 提取url

爬虫要根据当前url地址对应的响应为准，当前url地址的elements的内容和url的响应不一样

页面上的数据在哪里

当前url地址对应的响应中
其他的url地址对应的响应中
- 比如ajax请求中
js生成的
- 部分数据在响应中
- 全部通过js生成

str bytes 如何转化

str使用encode方法转化为bytes
bytes通过decode方法转化为str
编码方式解码方式必须一样，否则会出现乱码

requests模块

import requests
response = requests.get('http://www.baidu.com')
response.text  # 获取数据 猜测解码方式
response.encoding  # 推测出编码的编码方式
# 指定编码方式 -- 然后在使用text获取数据
response.encoding = 'utf-8'

# bytes 类型的数据
response.content
# 转换成中文
response.content.decode()

requests中解决编码解码的方法

response.content.decode()
response.content.decode(“gbk”)
response.text

保存文件的内容

1.获取内容数据–二进制
2.使用wb的方式保存就可以了，需要改保存文件的后缀名

获取的内容

获取状态码
- response.status_code
获取内容
- response.text
- response.content
获取响应头
- response.headers
获取请求头
- response.request.headers
url 地址
- response.request.url 请求的url地址
- response.url 响应的url地址

判断请求是否成功

# 断言： 
assert reponse.statue_code==200

url 编码

https://www.baidu.com/s?wd=%E4%BC%A0%E6%99%BA%E6%92%AD%E5%AE%A2