python 之路，致那些年，我们依然没搞明白的编码

本文深入探讨了Python中的字符编码，包括ASCII、Unicode、UTF-8、GBK等编码的背景和使用场景。介绍了Python3的执行过程，强调了Unicode在内存中处理字符的重要性，以及在不同编码间转换的必要性。通过示例解释了Python中decode和encode的过程，帮助读者理解如何验证编码转换的正确性。同时，讨论了Python2和Python3在处理字符串和字节类型的区别，以及Python3如何解决跨平台编码问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本节内容

　　编码回顾

　　编码转换

　　Python的bytes类型

编码回顾

在备编码相关的课件时，在知乎上看到一段关于Python编码的回答

这哥们的这段话说的太对了，搞Python不把编码彻底搞明白，总有一天它会猝不及防坑你一把。

不过感觉这哥们的答案并没把编码问题写明白，所以只好亲自动笔了。

折腾编码问题，有很多次，我以为自已明白了，最终发现，那只不过是自圆其说而已，这一次，终于100%确定，动笔即不再改！

看这篇文章前，你应该已经知道了为什么有编码，以及编码的种类情况

ASCII 占1个字节，只支持英文
GB2312 占2个字节，支持6700+汉字
GBK GB2312的升级版，支持21000+汉字
Shift-JIS 日本字符
ks_c_5601-1987 韩国编码
TIS-620 泰国编码

由于每个国家都有自己的字符，所以其对应关系也涵盖了自己国家的字符，但是以上编码都存在局限性，即：仅涵盖本国字符，无其他国家字符的对应关系。应运而生出现了万国码，他涵盖了全球所有的文字和二进制的对应关系，

Unicode 2-4字节已经收录136690个字符，并还在一直不断扩张中...

Unicode 起到了2个作用：

直接支持全球所有语言，每个国家都可以不用再使用自己之前的旧编码了，用unicode就可以了。(就跟英语是全球统一语言一样)
unicode包含了跟全球所有国家编码的映射关系，为什么呢？后面再讲

Unicode解决了字符和二进制的对应关系，但是使用unicode表示一个字符，太浪费空间。例如：利用unicode表示“Python”需要12个字节才能表示，比原来ASCII表示增加了1倍。

由于计算机的内存比较大，并且字符串在内容中表示时也不会特别大，所以内容可以使用unicode来处理，但是存储和网络传输时一般数据都会非常多，那么增加1倍将是无法容忍的！！！

为了解决存储和网络传输的问题，出现了Unicode Transformation Format，学术名UTF，即：对unicode中的进行转换，以便于在存储和网络传输时可以节省空间!

UTF-8：使用1、2、3、4个字节表示所有字符；优先使用1个字符、无法满足则使增加一个字节，最多4个字节。英文占1个字节、欧洲语系占2个、东亚占3个，其它及特殊字符占4个
UTF-16：使用2、4个字节表示所有字符；优先使用2个字节，否则使用4个字节表示。
UTF-32：使用4个字节表示所有字符；

总结：UTF 是为unicode编码设计的一种在存储和传输时节省空间的编码方案。

字符在硬盘上的存储

无论以什么编码在内存里显示字符，存到硬盘上都是2进制。

 
         ascii编码(美国)： 
        
         l    
         0b1101100 
        
         o    
         0b1101111 
        
         v    
         0b1110110 
        
         e    
         0b1100101 
        
         GBK编码(中国)： 
        
         老    
         0b11000000  
         0b11001111 
        
         男    
         0b11000100  
         0b11010000 
        
         孩    
         0b10111010  
         0b10100010 
        
         Shift_JIS编码(日本)： 
        
         私    
         0b10001110  
         0b10000100