Python-encode与decode--编码相关知识

最新推荐文章于 2024-06-15 09:27:44 发布

原创最新推荐文章于 2024-06-15 09:27:44 发布 · 309 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python

垃圾产品--Python 专栏收录该内容

20 篇文章

订阅专栏

本文深入探讨了Unicode编码的诞生背景及其在全球语言统一化中的作用，同时解析了UTF-8编码如何解决英文字符存储效率问题，以及其在Python3中如何实现字符串的编码与解码。

为了沟通的便利，Unicode（万国码）应运而生，这套编码表将世界上所有的符号都纳入其中。每个符号都有一个独一无二的编码，现在Unicode可以容纳100多万个符号，所有语言都可以互通，一个网页上也可以显示多国语言。

看起来皆大欢喜。但是！问题又来了，自从英文世界吃上了Unicode这口大锅饭，为迁就一些占用字节比较多的语言，英文也要跟着占两个字节。比如要存储A，原本00010001就可以了，现在偏得用两个字节：00000000 00010001才行，这样对计算机空间存储是种极大的浪费！

基于这个痛点，科学家们又提出了天才的想法：UTF-8（8-bit Unicode Transformation Format）。它是一种针对Unicode的可变长度字符编码，它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度，而当字符在ASCII码的范围时，就用一个字节表示，所以UTF-8还可以兼容ASCII编码。

在Python3当中，程序处理我们输入的字符串，是默认使用Unicode编码的，所以你什么语言都可以输入。

Unicode与UTF-8这种暧昧的关系一言以蔽之：Unicode是内存编码的规范，而UTF-8是如何保存和传输Unicode的手段。

print('吴枫'.encode('utf-8'))
print('吴枫'.encode('gbk'))
print(b'\xe5\x90\xb4\xe6\x9e\xab'.decode('utf-8'))
print(b'\xce\xe2\xb7\xe3'.decode('gbk'))

encode：变成bytes，按某种编码方式

decode：把bytes变成字符，按某种编码方式