【cmd/Python】【编码错误】UnicodeEncodeError: 'gbk' codec can't encode character '\U0001f602' in position

最新推荐文章于 2025-01-22 01:12:11 发布

原创最新推荐文章于 2025-01-22 01:12:11 发布 · 8k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#python #cmd #print #UnicodeEncodeError

本文介绍了解决在控制台打印中文文章时遇到的UnicodeEncodeError问题。错误原因是UTF-8编码的文章在打印过程中被错误地转为GBK编码，导致部分字符无法正确显示。文中提供了两种解决方案：一是临时更改标准输出流的编码方式；二是永久性地修改控制台编码为UTF-8。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在控制台使用print函数打印爬虫爬取的中文文章时，出现错误

UnicodeEncodeError: 'gbk' codec can't encode character '\U0001f602' in position。。。

文章采用utf8编码的，错误信息却显示gbk无法编码字符'\U0001f602'

说明utf8的文章在打印过程中被转成gbk，而gbk显然无法编码unicode的某些字符。

解决方法有两个：

①修改标准输出流的编码方式：

import io

import sys

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')

或者

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8')

②还有一种一劳永逸的方法——修改控制台编码：

命令行输入 chcp

输出显示：活动代码页： 936

表示当前的编码是默认的gbk

修改编码：

命令行输入 chcp 65001

表示转换成utf8

字体选择Lucida Console

然后可以成功print爬取的中文文章

常见编码：

utf8	所有语言
gbk	简体中文
gb2312	简体中文
gb18030	简体中文
big5	繁体中文
big5hkscs	繁体中文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

k527971724

关注关注

3
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

UnicodeEncodeError: ‘gbk‘ codec can‘t encode character解决方法

赖德发的博客

01-15

1950

关于requests库请求后，出现编码错误的问题。其实问题的关键点就是在于编码和解码的问题，首先要确定网站的编码方式，剩下的就是自己电脑中的Pycharm编码设置的问题了。代码是没毛病的，而且网页的编码就是utf-8，编码没问题，那么只能是Pycharm中的编码设置的问题了。在setting里边指定编码为utf-8，就可以解决问题了 ...

UnicodeEncodeError:‘gbk‘ codec can‘t encode character ‘\xa9‘ in position 1363:illegal multibyte 解决方案

热门推荐

weixin_43178406的博客

08-03

10万+

本文主要介绍了UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xa9’ in position 1363: illegal multibyte sequence解决方案，希望能对使用Python的同学们有所帮助。文章目录 1. 问题描述 2. 解决方案

1 条评论您还未登录，请先登录后发表或查看评论

问题之一python提示UnicodeEncodeError: ‘gbk‘ codec can‘t encode character解决

longlgg的博客

04-01

8494

问题之一python提示UnicodeEncodeError: 'gbk' codec can't encode character解决

解决python3 UnicodeEncodeError: 'gbk' codec can't encode character '\U0001f608' in position。。。

废人一枚的博客

02-23

3255

1、问题描述：爬虫后的网页保存文件的时候，将uft-8的编码写入文档，并输出的时候，出现这了这个报错，说gbk无法编码\U0001f608 UnicodeEncodeError: 'gbk' codec can't encode character '\U0001f608' in position 76036: illegal multibyte sequence 2、解决办法： 2.1改变终...

使用pycharm编写python爬虫时出现乱码的解决方案UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\U0001f601‘ in

隔壁山上小道士的博客

01-25

5366

一杯茶，一首歌，一个bug改一天。今天在学习python多线程时，遇到的了乱码的情况，让我们先看一看是什么情况的吧在这样一段代码中： response = requests.get(url_queue.get(), headers=headers) info = response.text print(info) 报出如下错误： UnicodeEncodeError: 'gbk' codec can't encode character '\U0001f601' in position 36140:

UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\U0001f62d‘ in position 93: illegal multib

qq_44961808的博客

03-03

467

@python用print()打印网页内容时 UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\U0001f62d’ in position 93: illegal multibyte sequence 采取措施如下：在要打印的数据后加上.encode(‘GBK’,‘ignore’).decode(‘GBK’) ...

execjs报错“UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\x..‘ in posit”

qq_53127598的博客

06-12

993

在使用python环境调用execjs包执行js代码时，可能会发生报错。

UnicodeEncodeError: 'gbk' codec can't encode character '\xXX' in position XX

路ren甲

02-10

2384

从网上抓取网站写下面这段代码时，发现报UnicodeEncodeError: 'gbk' codec can't encode character '\xXX' in position XX 错误 from urllib import request req=request.Request("https://www.baidu.com") req.add_header("User-Agent",

UnicodeEncodeError: ‘gbk‘ codec can‘t encode character in position illegal multibyte

马某人的博客

01-22

1327

通过以上方法，你可以在不修改源码的情况下，解决问题。推荐使用修改系统区域设置或 VSCode 终端编码的方法，因为它们可以全局生效，避免每次都需要手动设置。

Python异常UnicodeEncodeError 'gbk' codec can't encode character '\xa0'

曾记否？的博客

09-10

7588

问题描述在写爬虫爬取网页信息时，发生了以下错误： UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' 意思大致是Unicode编码错误，gbk编解码器不能编码\xa0字符。爬虫程序爬取的是课程信息，包含中文。使用requests库访问网页，使用BeautifulSoup库解析网页，用get_text()方法获取标签...

写入文件中遇到 UnicodeEncodeError: ‘gbk’ codec can’t encode character 错误的解决办法

VITO21的博客

12-06

8874

今天爬一个网站的内容，在写入TXT文件时，某些页面总是报UnicodeEncodeError: ‘gbk’ codec can’t encode character错误，网上找了半天也没找到解决办法。后来终于找到了解决办法，十分简单:在f = open('英语练习.txt','a+',encoding='utf-8') 里加上encoding='utf-8'这个参数就行了。出错的原

UnicodeEncodeError: ‘gbk’ codec can’t encode character 错误的解决办法

liugaoxingliushi的专栏

03-07

3166

python 爬虫写入txt：UnicodeEncodeError: ‘gbk’ codec can’t encode character 错误的解决办法原链接：https://blog.youkuaiyun.com/vito21/article/details/53490435 http://www.cnblogs.com/qiu-hua/articles/9138579.html 今天爬一个网站的...

【已解决】关于错误 UnicodeEncodeError: ‘gbk‘ codec can‘t encode character

↓ ↓

09-17

1256

已解决：UnicodeEncodeError: 'gbk' codec can't encode character '\xa9' in position 19417: illegal multibyte sequence

Python编码问题| UnicodeEncodeError: ‘gbk’ codec can’t encode character 错误的解决办法

Xylon的博客

07-22

2634

写入文件中遇到 UnicodeEncodeError: ‘gbk’ codec can’t encode character 错误的解决办法 sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8') #改变标准输出的默认编码 #或 f =open('out.txt','a+',encoding='utf-8') ...

解决python3 UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\U0001f608‘ in position。。。

qq_36807888的博客

12-18

287

windows cmd窗口调试，在print中文的时候，报codec ‘gbk’ 编码错误

踌躇满志吃喝度日

12-14

285

python2.7 windows cmd窗口调试，在print中文的时候，报codec ‘gbk’ 编码错误解决方案 1.重载系统编码。本方案可能会造成其他bug（自己从未遇到，在查阅资料的时候，有看到其他博客写到造成了服务端编码错误，请谨慎使用） import sys reload(sys) sys.setdefaultencoding('utf8') 2.print string.encode('gbk', 'ignore').decode('gbk') ...

Python UnicodeEncodeError: ‘gbk‘ codec can‘t encode character 解决方法

skysys的研究小屋

11-26

2032

在windows下面，新文件的默认编码是gbk，但我们写的数据是utf-8编码的所以需要指定编码… f.write(test_texts[i] + '\n') 改为： f.write(test_texts[i] + '\n',encoding='utf-8')

当遇到UnicodeEncodeError: ‘gbk‘ codec can‘t encode character....时....

Hhhhzh0724的博客

03-27

799

UnicodeEncodeError: 'gbk' codec can't encode character....

Python写入文件报错‘gbk’ codec can’t encode character的解决办法

翎野君的博客

06-03

5601

背景使用Python写文件的时候，或者将网络数据流写入到本地文件的时候，大部分情况下会遇到：UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position ... 这个问题。网络上有很多类似的文件讲述如何解决这个问题，但是无非就是encode，decode相关的，这是导致该问题出现的真正原因吗？不是的。很多...

python中requests时出现：UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 22682: illegal multibyte sequence

最新发布

07-09

<think>我们正在处理的是使用Python的requests库时遇到的编码错误。具体错误是：`UnicodeEncodeError: 'gbk' codec can't encode character ...`。这个错误通常发生在尝试将包含非GBK字符的文本写入文件时，而文件的编码被设置为GBK（或者系统默认编码为GBK）。用户提到之前有引用关于UnicodeDecodeError的解决办法，但当前问题是一个UnicodeEncodeError，发生在使用requests库时。我们需要考虑两种情况： 1. 当我们使用requests获取内容后，将内容写入文件时发生的编码错误。 2. 在打印内容到控制台时发生的编码错误（因为控制台可能使用GBK编码）。核心问题：中文字符集GBK无法表示某些字符（例如，引用的错误中的字符`»`，即U+00BB）。在Windows系统中，默认编码往往是GBK，所以当文本中包含一些不在GBK字符集中的字符（如一些拉丁字符、特殊符号等）时，就会抛出此异常。解决方案：方案一：在写入文件时指定编码为UTF-8（推荐）当我们使用requests获取内容后，通常我们会将内容写入文件。在打开文件时，指定编码为UTF-8，因为UTF-8可以表示所有Unicode字符。示例代码： ```python import requests response = requests.get('http://example.com/some_page.html') # 获取文本内容，通常requests会自动根据响应头中的编码进行解码，如果没有，我们可以手动设置 # response.encoding = 'utf-8' # 如果需要可以手动设置 content = response.text with open('output.html', 'w', encoding='utf-8') as f: f.write(content) ``` 方案二：处理控制台输出时的编码错误如果我们只是在控制台打印时遇到这个错误，那么可以尝试改变控制台的编码，或者对输出进行编码处理（例如，使用错误处理策略）。但是，在Windows控制台直接打印Unicode字符串有时也会遇到编码问题，因为控制台默认编码是GBK。我们可以尝试以下方法：方法1：在打印前对字符串进行转码，并忽略或替换无法编码的字符 ```python print(content.encode('gbk', errors='ignore').decode('gbk')) # 或者 print(content.encode('gbk', errors='replace').decode('gbk')) ``` 方法2：修改控制台的编码（不总是可行，但可以尝试）在Python 3.7及以上版本，我们可以重新配置标准输出的编码： ```python import sys import io sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8', errors='ignore') # 然后正常打印 print(content) ``` 但是，这种方法可能会因为控制台不支持UTF-8而显示乱码（特别是旧版Windows控制台）。方案三：在请求时使用二进制内容，然后按需解码如果我们不需要修改内容，可以直接保存二进制内容到文件，这样就不会有编码问题： ```python response = requests.get('http://example.com/some_page.html') content = response.content # 二进制内容 with open('output.html', 'wb') as f: f.write(content) ``` 方案四：在写入文件时使用错误处理机制如果我们必须使用GBK编码，那么可以在打开文件时指定错误处理方式： ```python with open('output.html', 'w', encoding='gbk', errors='ignore') as f: f.write(content) # 或者用替换 with open('output.html', 'w', encoding='gbk', errors='replace') as f: f.write(content) ``` 推荐方案：通常，我们建议使用UTF-8编码来处理网页内容，因为网页内容大多使用UTF-8编码。因此，方案一和方案三是最常用且最安全的。注意：有时，requests获取的网页编码可能识别错误，导致response.text解码不正确。我们可以通过检查response.encoding，或者手动设置编码，或者使用response.content并手动解码（如：`content = response.content.decode('utf-8')`）来确保正确解码。引用说明：在解决编码问题时，通常需要明确是编码（Encode）还是解码（Decode）错误。本例是编码错误（EncodeError），发生在将字符串写入文件或打印时。而之前引用中的错误是解码错误（DecodeError），发生在读取文件时。两者是相反的过程[^1]。相关问题： 1. 如何确保requests正确识别网页编码？ 2. 在Windows控制台中如何正确显示中文字符（避免乱码）？ 3. Python中处理文件编码的最佳实践是什么？ 4. 如何批量转换文件编码（例如从GBK到UTF-8）？</think>### Python Requests 库解决 UnicodeEncodeError: 'gbk' 编码错误当使用 Python 的 requests 库获取网页内容时遇到 `UnicodeEncodeError: 'gbk' codec can't encode character` 错误，通常发生在尝试将包含非 GBK 字符的内容写入文件或控制台时。以下是系统级解决方案： #### 核心解决方案 1. **显式指定 UTF-8 编码写入文件** 在保存响应内容时强制使用 UTF-8 编码： ```python import requests response = requests.get('https://example.com') with open('output.html', 'w', encoding='utf-8') as f: # 关键编码设置 f.write(response.text) ``` 2. **使用二进制模式保存原始内容** 避免自动解码过程： ```python response = requests.get('https://example.com') with open('output.html', 'wb') as f: # 二进制写入 f.write(response.content) # 直接保存原始字节 ``` 3. **控制台输出错误处理** 当在控制台打印时指定错误处理策略： ```python print(response.text.encode('gbk', errors='replace').decode('gbk')) # 替换非法字符 ``` #### 进阶处理 4. **强制响应文本编码** 覆盖 requests 的自动编码检测： ```python response = requests.get('https://example.com') response.encoding = 'utf-8' # 手动设置编码 print(response.text) ``` 5. **通用编码处理函数** 创建安全的文本处理函数： ```python def safe_gbk_encode(text): return text.encode('gbk', errors='backslashreplace').decode('gbk') print(safe_gbk_encode(response.text)) ``` 6. **环境级解决方案** 修改系统默认编码（Windows 临时方案）： ```cmd :: 在CMD中执行 set PYTHONIOENCODING=utf-8 python your_script.py ``` #### 错误原因分析此错误发生在： 1. 目标网页包含 GBK 编码不支持的字符（如特殊符号 »） 2. Windows 系统默认使用 GBK 编码 3. 当尝试将 Unicode 字符串转换为 GBK 时遇到非法字符序列[^1] > **最佳实践**：始终在文件操作中显式指定 `encoding='utf-8'`，网页内容处理优先使用 `response.content` 二进制模式。