Python进阶之路—七

最新推荐文章于 2018-01-02 14:58:30 发布

原创最新推荐文章于 2018-01-02 14:58:30 发布 · 284 阅读

0 ·

CC 4.0 BY-SA版权

Python基础专栏收录该内容

11 篇文章

订阅专栏

16、编码问题——初次见面
（1）、编码的发展
<1>ASCII码：只能存英文和拉丁字符，一个字符占一个字节，8位
<2>GB2312：只能有6700多个中文
<3>GBK：是GB2312的扩展，除兼容GB2321外，它还能显示繁体中文，还有日文的假名
<4>Unicode：万国码，是国际组织制定的可以容纳世界上所有文字和字符的编码方案。UTF-32（一个字符占4个字节）、UTF-16（一个字符占2个或2个以上字节）、UTF-8（是最流行的一种对Unicode进行传播和存储的编码方式。一个英文用ASCII码来存占一个字节，一个中文占3个字节）
（2）在开发Python程序中，会涉及到三个方面的编码：
<1>Python程序文件的编码
<2>Python程序运行时环境（IDE）的编码
<3>Python程序读取外部文件、网页的编码
（3）encode与decode函数
<1>decode()函数：将其他编码方式的字符转换成Unicode编码。

s = '特斯拉'
s_to_unicode = s.decode("utf-8")#将utf-8的编码方式转换成Unicode编码方式

<2>encode()函数:将Unicode编码方式的字符转换成其他编码方式。

s_to_unicode_to_gbk = s_to_unicode.encode('gbk')#将Unicode编码方式，转换成gbk的编码方式

<3>decode 与 encode的使用关系如下图
这里写图片描述

（4）python2.X中编解码问题
<1>Python2.X中，系统默认的文件编码方式是ASCII码。在写Python2.X程序的时候，习惯在程序的第一行加上：

#coding=utf-8

或者

#-*- conding：utf-8 -*-

<2>encode与decode在Python2.X中的示例

#-*-coding:utf-8-*-
#___Author: Damon
#___Date:   2017/8/12
# 显示的编码为GBK
s = '特斯拉'
print s#打印结果：鐗规柉鎷 原因：文件的编码是utf-8的，而cmd中显示字符的文件编码是gbk的，所以，出现乱码，无法识别，
s_to_unicode = s.decode("utf-8")#将utf-8的编码方式转换成Unicode编码方式
print s_to_unicode#打印结果：特斯拉
s_to_unicode_to_gbk = s_to_unicode.encode('gbk')#将Unicode编码方式，转换成gbk的编码方式
print s_to_unicode_to_gbk#打印结果：特斯拉

示例分析及说明：
1)、程序中，代码的编码方式已改为utf-8
2）、程序的的结果显示是在win10 的cmd命令窗口中，窗口显示默认GBK编码方式
3）、若想在cmd命令窗口中，显示utf-8编码方式的文件，可在cmd命令窗口中，输入如下指令：chcp 65001
<3>改变python2.X中默认的编码方式

import sys
print(sys.getdefaultencoding())#打印Python2 中系统默认的编码方式：ASCII
reload(sys)
sys.setdefaultencoding('utf-8')#将python2系统中默认的编码方式（ASCII）改成utf-8
print (sys.getdefaultencoding())#打印更改后的Python2系统中的编码方式

（5）、Python3.X中的编解码问题
<1>Python3对文本（str）和二进制数据（bytes）有了更加清晰的区分。
Python3.X中，文本默认的编码方式是Unicode，由str类型表示，二进制数据则由bytes类型表示。
<2>encode与decode在Python3.X中的示例

#___Author: Damon
#___Date:   2017/8/12
s = 'i am 特斯拉'
print(s)#i am 特斯拉
s_to_utf_8 = s.encode('utf-8')
print(s_to_utf_8 )#b'i am \xe7\x89\xb9\xe6\x96\xaf\xe6\x8b\x89'
s_to_gbk = s.encode('gbk')
print(s_to_gbk)#b'i am \xcc\xd8\xcb\xb9\xc0\xad'
#bytes（）函数同encode（）函数一样，也是把str类型编码成bytes类型
s_to_gbk = bytes(s,'gbk')
print(s_to_gbk)#b'i am \xcc\xd8\xcb\xb9\xc0\xad'
#解码过程，把bytes数据解码成str类型
s_to_gbk_to_gbk = b'i am \xcc\xd8\xcb\xb9\xc0\xad'.decode('gbk')
print(s_to_gbk_to_gbk)#i am 特斯拉