python 爬取编码(charset)为gbk的网页

在爬取王者荣耀官网时遇到GBK编码的网页,导致中文乱码。通过尝试两种方法解决了问题:1) 将爬取内容以utf-8编码写入文件再以utf-8打开;2) 直接用gbk编码打开文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近因为安卓作业需要,要对王者荣耀的官方网站进行爬取,然而在最开始便遇到了一些问题,王者荣耀官网的网页charset=gbk,所以爬取时需要进行编码转换,然而转换后却依旧中文乱码,经过查找,发现以下两种解决办法:
第一种:

    req = requests.get(headers=header, url=url)
    content = req.content
    print content.encode('utf-8')

然后将输出流到某一文件中,用utf-8编码打开:

第二种:


                
### Python 爬虫 网页抓取 乱码 解决方案 在处理 Python 爬虫时遇到的中文乱码问题,通常是因为网页编码方式与程序默认解码方式不一致所引起的。以下是几种常见的解决方案: #### 方法一:确认并匹配网页的实际编码 当使用 `requests` 库获取网页内容时,默认情况下可能会尝试自动检测编码,但其准确性并不总是可靠。因此,建议手动检查目标网页的真实编码,并将其应用于程序中。 - **查看网页实际编码** 浏览器工具可以帮助我们快速了解网页使用的编码标准。例如,在 Edge 或 Chrome 中打开开发者工具(F12),切换至 Network 标签刷新页面后观察 Response Headers 中是否有 `Content-Type: text/html; charset=utf-8` 类似的字段[^1]。如果未明确指定,则需进一步分析 HTML 文件头部 `<meta>` 标签是否存在类似定义: ```html <meta http-equiv="Content-Type" content="text/html; charset=gbk"> ``` - **调整代码以适配相应编码** 假设发现目标站点采用 GBK 编码而非 UTF-8,则应更新请求逻辑如下: ```python import requests url = 'http://example.com' response = requests.get(url) response.encoding = 'GBK' # 手动设定正确编码 print(response.text) ``` #### 方法二:利用 `.content` 替代 `.text` 另一种有效方法是绕过字符串层面直接操作字节流数据。通过访问 `response.content` 属性返回原始二进制数据,再显式调用 decode 函数转换为目标编码格式。 ```python import chardet url = 'http://example.com' headers = {'User-Agent': 'Mozilla/5.0'} response = requests.get(url, headers=headers) detected_encoding = chardet.detect(response.content)['encoding'] decoded_content = response.content.decode(detected_encoding or 'utf-8') print(decoded_content) ``` 这里引入第三方库 [`chardet`](https://pypi.org/project/chardet/) 自动探测未知编码类型[^4]^。 #### 方法三:强制统一全局文件编码环境 尽管单独针对每次 HTTP 请求配置特定编码可以解决问题,但从开发效率角度考虑,也可以预先统一定义整个项目的文本编码策略。比如 PyCharm IDE 提供选项允许更改项目级别乃至IDE级别的缺省编码为 UTF-8[^2]。 不过需要注意的是,仅改变编辑器内部设置并不能完全杜绝外部资源带来的兼容性隐患;它更适合用于预防本地脚本编写阶段产生的潜在错误而不是修复运行期动态加载的内容差异。 --- ### 总结 综上所述,解决 Python 爬虫过程中出现的中文乱码现象可以从以下几个方向入手: 1. 明确识别目的网站的确切编码; 2. 使用更底层的数据读取机制避开高层级封装可能引发误解的情况; 3. 调整整体工作流程减少不必要的干扰因素影响最终效果呈现。 以上三种途径各有优劣适用场景,请根据实际情况灵活选用最合适的办法实施改进措施。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值