【Python爬虫入门】text与content方法区别

原创于 2025-01-08 14:42:58 发布 · 344 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #python #程序员创富 #程序人生 #改行学it #后端 #开源

response.text

- 类型：str
- 解码类型：requests模块根据HTTP头部对响应的编码推测文本编码类型
- 修改编码方式：response.encoding = 'gbk'

response.content

- 类型：bytes
- 解码类型：没有指定
- 修改解码方式：response.content.decode('utf-8')

获取网页源码的通用方式：

response.encoding = 'utf-8'
response.content.decode('utf-8')
response.text

以上三种方式从前往后依次尝试，百分百可以解决网页编码问题。

import requests

r = requests.get("https://www.baidu.com")

print("-----requests一般能够根据响应自动解码-----")
print(r.text)

print("-----如果不能够解析出想要的真实数据，可以通过设置解码方式-----")
r.encoding = "utf-8"
print(r.text)