python 爬取编码（charset）为gbk的网页

最新推荐文章于 2024-08-15 10:50:08 发布

原创

最新推荐文章于 2024-08-15 10:50:08 发布 · 7.1k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #gbk #中文乱码 #编码

在爬取王者荣耀官网时遇到GBK编码的网页，导致中文乱码。通过尝试两种方法解决了问题：1) 将爬取内容以utf-8编码写入文件再以utf-8打开；2) 直接用gbk编码打开文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近因为安卓作业需要，要对王者荣耀的官方网站进行爬取，然而在最开始便遇到了一些问题，王者荣耀官网的网页charset=gbk，所以爬取时需要进行编码转换，然而转换后却依旧中文乱码，经过查找，发现以下两种解决办法：
第一种：

    req = requests.get(headers=header, url=url)
    content = req.content
    print content.encode('utf-8')

然后将输出流到某一文件中，用utf-8编码打开：

第二种：

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

csm201314

关注关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python爬虫爬取GBK网页

baidu_15113429的博客

11-23

4961

# -*- coding: utf-8 -*- import requests import re from bs4 import BeautifulSoup def getHtml(url): req = requests.get(url) req.encoding = "gbk" return req.content def getcityhtml(html):

python爬虫数据中文显示为乱码解决方式（gbk导致）

littledive的博客

12-28

2831

爬虫乱码是一个很常见的问题，给大家分享一个我遇到的案例及解决方案爬取对象为电影票房（网址：target='http://www.piaofang.biz/'）电影名显示为乱码此时查看网页源代码，发现显示为gbk 我们需要使用requests库的方法查看编码类型可以看到编码为ISO-8859-1，然后只需要在对应位置上encode(ISO-8859-1)，中文乱码就可以解决 ...

1 条评论您还未登录，请先登录后发表或查看评论

python-scrapy框架爬取以“GBK”编码的网页

zy的博客

02-18

1297

网页编码方式的查看方法 scrapy框架爬取以“GBK”编码的网页

python 提取网页 charset 的方法

____

03-02

3825

经过十几万网页采集测试，有效率99%def pick_charset(html): """ 从文本中提取 meta charset :param html: :return: """ charset = None m = re.compile('<meta .*(http-equiv="?Content-Type"?.*)?charset="?

【学习笔记】python爬虫获取GBK编码网页的转换

Lixaolin的博客

08-08

3781

爬取某个GBK编码的网站页面时，发现获取到的信息是这样的 title=ÏÂÔÂÆð´Ó³É¶¼¿ÉÖ±·ÉºÕ¶ûÐÁ»ù È«³Ì½öÐè9Ð¡Ê± 2019Äê08ÔÂ08ÈÕ07:40 À´Ô´£ºËÄ´¨ÈÕ±¨ Ô±êÌâ£ºÏÂÔÂÆð ³É¶¼Ö±·ÉºÕ¶ûÐÁ»ù ¡¡¡¡8ÔÂ7ÈÕ£¬ËÄ´¨º½¿Õ¹«Ë¾Í¸Â¶£¬½«ÓÚ9ÔÂ16ÈÕÐÂ¿ª³É¶¼Ö±·Éº...

python pymssql charset=“gbk“ b‘DB-Lib error message 20010, severity 8

qq_43615820的博客

05-23

2625

报错： (20010, b'DB-Lib error message 20010, severity 8:\nUnable to allocate sufficient memory (localhost)\nOperating System error during No error (12)\n') 代码： import pymssql conn = pymssql.connect(host=ip,user=u,passwd=p,port=int(port),database='master

浅谈Python爬取网页的编码处理

09-21

Python爬取网页时，编码处理是一个关键步骤，因为网页的编码方式多种多样，不正确的处理会导致乱码。本文主要探讨如何解决Python爬虫在处理网页编码时遇到的问题。首先，我们要理解编码的基本概念。在计算机中，...

通过python爬取电影信息.zip

12-24

# 注意：右键查看源代码，charset=gb2312" 编码方式【网站编码不规范，解码必须用响应的编码方式进行解码】 # print(response.content.decode('gbk')) # html_element = etree.HTML(response.content.decode('...

Python爬取淘宝图片

热门推荐

某嫌疑犯

10-19

1万+

爬取淘女郎模特图片与相关信息

python 编码gbk_Python 'gbk'又是编码问题求助

weixin_36486217的博客

02-03

346

Python Codesql = "INSERT INTO test(keyword,content) values(\"%s\",\"%s\")"%(keyword,content)cur.execute(sql)报错信息File "D:\Personal\Common.py", line 72, in DataIntoDBcur.execute(sql)File "D:\Python\V2.7...

GBK字符集编码表

02-10

标准的GBK字符集编码表，工具类文档必备

【Python】获取网页源码进行解码过程中，遇到“gbk”编码的问题

Meggie35的博客

08-15

809

获取网页源码进行解码过程中，遇到“gbk”编码的问题，以及对gzip的了解

【python】抓取网页gb2312/gbk编码乱码

Hurpe

08-02

5710

做了个网络爬虫抓取网页，但如果网页是gbk/gb2312编码，则会出现乱码问题，如下：取得文字后，直接打印，输出结果str如下： ¹óÖÝÈËÊÂ¿¼ÊÔÐÅÏ¢Íø_¹óÖÝÈËÊÂ¿¼ÊÔÍø_¹óÖÝ¹«ÎñÔ±¿¼ÊÔÍø_¹óÖÝÖÐ¹« 这个问题困扰我好长时间，baidu,google了一番也没有找到完全可行的方法，继续瞎折腾，最后居然搞出来了！编码转换来转换去的，还是得不到解...

用Python脚本保存网页

A Flying Bird

08-29

4141

python脚本自动保存blog页面。

python初步爬取网页源码，以gbk和utf-8网页为例

吕先生的博客

06-06

1852

使用的资源文件（自定义）由于有的网站会对访问头进行识别，需要根据不同的浏览器建立不同的user_agent,及用户代理 user_agent_list = [ # pc端 # safari 5.1 – MAC "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, ...

Python 爬虫爬取网页内容（lxml+requests）（#有手就行系列）

anbula的博客

07-08

1505

#有手就行系列 – 网页爬取（简易版） 1、准备阶段 1）下载[链接的代码文档](https://download.youkuaiyun.com/download/anbula/20086749)（anaconda打开）或是文末的代码 2）进行尝试，点击运行查看是否有报错 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20210708154955167.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shado

header(Content-Type:text/html;charset=GBK')

蒗若晨曦

03-21

5782

header(Content-Type:text/html;charset=GBK') php整页编码

python-scrapy爬取网页编码为gb2312

dlnj93539的博客

03-03

804

最近两天在学scrapy,发现爬取编码为gb2312的网页时出现错误，解决后又出现中文乱码问题，弄了两天终于解决了 1.（测utf-8/gb2312可以成功调码解码） 1. import chardet print(chardet.detect(title)) py3用库chardet可以查看网络编码方式先用encode编码成bytes 再用decode编...

python解码gbk_解决Python3 requests 响应头中文GBK编码报错，无法请求

weixin_39819138的博客

11-23

1067

问题表现：响应头中有gbk编码的中文，导致requests无法解码读取header。http包如图：Python 3.4.3 (default, Aug 25 2017, 16:49:50)[GCC 4.8.5 20150623 (Red Hat 4.8.5-11)] on linuxType "help", "copyright", "credits" or "license" for more...

Python爬取网页内容后乱码

最新发布

04-25

### Python 爬虫网页抓取乱码解决方案在处理 Python 爬虫时遇到的中文乱码问题，通常是因为网页编码方式与程序默认解码方式不一致所引起的。以下是几种常见的解决方案： #### 方法一：确认并匹配网页的实际编码当使用 `requests` 库获取网页内容时，默认情况下可能会尝试自动检测编码，但其准确性并不总是可靠。因此，建议手动检查目标网页的真实编码，并将其应用于程序中。 - **查看网页实际编码** 浏览器工具可以帮助我们快速了解网页使用的编码标准。例如，在 Edge 或 Chrome 中打开开发者工具（F12），切换至 Network 标签刷新页面后观察 Response Headers 中是否有 `Content-Type: text/html; charset=utf-8` 类似的字段[^1]。如果未明确指定，则需进一步分析 HTML 文件头部 `<meta>` 标签是否存在类似定义： ```html <meta http-equiv="Content-Type" content="text/html; charset=gbk"> ``` - **调整代码以适配相应编码** 假设发现目标站点采用 GBK 编码而非 UTF-8，则应更新请求逻辑如下： ```python import requests url = 'http://example.com' response = requests.get(url) response.encoding = 'GBK' # 手动设定正确编码 print(response.text) ``` #### 方法二：利用 `.content` 替代 `.text` 另一种有效方法是绕过字符串层面直接操作字节流数据。通过访问 `response.content` 属性返回原始二进制数据，再显式调用 decode 函数转换为目标编码格式。 ```python import chardet url = 'http://example.com' headers = {'User-Agent': 'Mozilla/5.0'} response = requests.get(url, headers=headers) detected_encoding = chardet.detect(response.content)['encoding'] decoded_content = response.content.decode(detected_encoding or 'utf-8') print(decoded_content) ``` 这里引入第三方库 [`chardet`](https://pypi.org/project/chardet/) 自动探测未知编码类型[^4]^。 #### 方法三：强制统一全局文件编码环境尽管单独针对每次 HTTP 请求配置特定编码可以解决问题，但从开发效率角度考虑，也可以预先统一定义整个项目的文本编码策略。比如 PyCharm IDE 提供选项允许更改项目级别乃至IDE级别的缺省编码为 UTF-8[^2]。不过需要注意的是，仅改变编辑器内部设置并不能完全杜绝外部资源带来的兼容性隐患；它更适合用于预防本地脚本编写阶段产生的潜在错误而不是修复运行期动态加载的内容差异。 --- ### 总结综上所述，解决 Python 爬虫过程中出现的中文乱码现象可以从以下几个方向入手： 1. 明确识别目的网站的确切编码； 2. 使用更底层的数据读取机制避开高层级封装可能引发误解的情况； 3. 调整整体工作流程减少不必要的干扰因素影响最终效果呈现。以上三种途径各有优劣适用场景，请根据实际情况灵活选用最合适的办法实施改进措施。