python中解决中文乱码

最新推荐文章于 2025-10-30 15:29:32 发布

原创

最新推荐文章于 2025-10-30 15:29:32 发布 · 3.9k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #爬虫 #字符串 #编码

解决中文乱码

什么是字符编码
python 的字符编码
- encode和decode
- - unicode还可以decode吗？
  - UTF-8还可以encode吗？
解决中文编码问题

什么是字符编码

总的来说，字符串的编码都只有两大类：

通用的Unicode编码。
将Unicode转化成的某种类型的编码。如UTF-8、GBH等。

Unicode 被称为统一码、万国码或单一码。它为每种语言中的每个字符设定了统一的并且唯一的二进制编码。
为了节省空间，开发了一些中间格式的字符集。被称为通用转换格式UnicodeTransformation Format(UTF)，常见的有 UTF−8 和 UTF−16。
随着互联网的普及，强烈要求出现一种统一的编码方式， UTF−8 就是在互联
网上使用最广的一种Unicode的实现方式。 UTF−8 最大的一个特点是长度可变，它可以使用1一4个字节表示一个符号，英文字母通常被编为1个字节，汉字通常。被编为3个字节，如表所示。

字符	ASCII	Unicode	UTF-8
A	01000001	00000000 01000001	01000001
中		01001110 00101101	11100100 10111000 10101101

对于 UTF−8 编码，怎么知道什么时候是1个字节，什么时候是3个字节呢?
其实， UTF−8 的编码规则很简单，只有两条：

(1)对于单字节的符号，字节的第1位设为0，后面7位为这个符号的
Un

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

落春只在无意间 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。