python字符编码

最新推荐文章于 2025-04-17 10:04:57 发布

bieveror

最新推荐文章于 2025-04-17 10:04:57 发布

阅读量268

点赞数

分类专栏： python

本文链接：https://blog.youkuaiyun.com/m0_37900335/article/details/73137009

版权

python 专栏收录该内容

19 篇文章

订阅专栏

一．文本编辑器和python解释器

##1.文本编辑器存取文件的原理（nodepad++，pycharm，word）
　打开编辑器就打开了启动了一个进程，是在内存中的，所以在编辑器编写的内容也都是存放与内存中的，断电后数据丢失。因而需要保存到硬盘上，点击保存按钮，就从内存中把数据刷到了硬盘上。在这一点上，我们编写一个py文件（没有执行），跟编写其他文件没有任何区别，都只是在编写一堆字符而已。
##2. python解释器执行py文件的原理，例如python test.py
　　　第一阶段：python解释器启动，此时就相当于启动了一个文本编辑器
　　　第二阶段：python解释器相当于文本编辑器，去打开test.py文件，从硬盘上将test.py的文件内容读入到内存中
　　　第三阶段：python解释器解释执行刚刚加载到内存中test.py的代码
　　
总结：
python解释器是解释执行文件内容的，因而python解释器具备读py文件的功能，这一点与文本编辑器一样
与文本编辑器不一样的地方在于，python解释器不仅可以读文件内容，还可以执行文件内容

二．字符编码的定义

计算器只能识别高低电平（1和0），而人写的是人能识别的代码。字符到数字的过程相当于将代码翻译成计算机能识别的二进制数字的过程，而将二进制数字和字符一一对应的标准就是字符编码

三．字符编码的发展

1.ASCII：

基于英语的标准，一个Bytes代表一个字符（英文字符/键盘上的所有其他字符），1Bytes=8bit，8bit可以表示0-2**8-1种变化，即可以表示256个字符。ASCII最初只用了后七位，127个数字，已经完全能够代表键盘上所有的字符了，后来为了将拉丁文也编码进了ASCII表，将最高位也占用了。

2.GBK：

基于中文的标准，:2Bytes代表一个字符
各国定制了符合自己国家语言的编码，日本把日文编到Shift_JIS里，韩国把韩文编到Euc-kr里

3.unicode和utf-8：

为了避免多国语言的冲突，产生了unicode和utf-8。
unicode：统一用2Bytes代表一个字符，2**16-1=65535，可代表6万多个字符，兼容万国语言。但对于通篇都是英文的文本来说，这种编码方式无疑是多了一倍的存储空间。
特点：简单粗暴，所有字符都是2Bytes，优点是字符->数字的转换速度快，缺点是占用空间大，内存中使用unicode。

utf-8：对英文字符只用1Bytes表示，对中文字符用3Bytes。
特点：精准，对不同的字符用不同的长度表示，优点是节省空间，缺点是：字符->数字的转换速度慢，因为每次都需要计算出字符需要多长的Bytes才能够准确表示，硬盘或者网络传输使用utf-8

四．字符编码的使用

1.流程

这里写图片描述

在文本编辑器或者python解释器写入内容是以unicode格式保存在内存中，当保存时，就是对内容进行encode操作，将unicode格式转化为utf-8格式（python3中默认，也可以自己指定为GBK或者其他格式），读文件时，对硬盘中的二进制码进行decode操作，转化为unicode格式读到内存中（存时用什么格式，读时要采用相同格式，否则会出现乱码）

2.python2和python3的区别

（1）python2中有两种字符串类型str和unicode
str类型
当python解释器执行到产生字符串的代码时，会申请新的内存地址，然后将字符串encode成文件开头指定的编码格式。在python2中，str就是编码后的结果bytes，str=bytes,所以在python2中，unicode字符编码的结果是str/bytes。
unicode类型
当python解释器执行到产生字符串的代码时，如果在字符串前加小写字母u，会申请新的内存地址，然后将字符串以unicode的格式存放到新的内存空间中。
对于print需要特别说明的是：当程序执行时，print(x) 这一步是将x指向的那块新的内存空间（非代码所在的内存空间）中的内存，打印到终端，而终端仍然是运行于内存中的，所以这打印可以理解为从内存打印到内存，即内存->内存，unicode->unicode。对于unicode格式的数据来说，无论怎么打印，都不会乱码，即python3中的字符串与python2中的
u’字符串’，都是unicode，无论如何打印都不会乱码。
（2）python3中也有两种字符串类型str和bytes
str类型是unicode，即存在内存中的类型。
bytes是bytes，即默认存在硬盘中的类型，由unicode格式encode（utf-8或GBK等等）而来。