Python进阶之路—七

16、编码问题——初次见面
(1)、编码的发展
<1>ASCII码:只能存英文和拉丁字符,一个字符占一个字节,8位
<2>GB2312:只能有6700多个中文
<3>GBK:是GB2312的扩展,除兼容GB2321外,它还能显示繁体中文,还有日文的假名
<4>Unicode:万国码,是国际组织制定的可以容纳世界上所有文字和字符的编码方案。UTF-32(一个字符占4个字节)、UTF-16(一个字符占2个或2个以上字节)、UTF-8(是最流行的一种对Unicode进行传播和存储的编码方式。一个英文用ASCII码来存占一个字节,一个中文占3个字节)
(2)在开发Python程序中,会涉及到三个方面的编码:
<1>Python程序文件的编码
<2>Python程序运行时环境(IDE)的编码
<3>Python程序读取外部文件、网页的编码
(3)encode与decode函数
<1>decode()函数:将其他编码方式的字符转换成Unicode编码。

s = '特斯拉'
s_to_unicode = s.decode("utf-8")#将utf-8的编码方式转换成Unicode编码方式

<2>encode()函数:将Unicode编码方式的字符转换成其他编码方式。

s_to_unicode_to_gbk = s_to_unicode.encode('gbk')#将Unicode编码方式,转换成gbk的编码方式

<3>decode 与 encode的使用关系如下图
这里写图片描述

(4)python2.X中编解码问题
<1>Python2.X中,系统默认的文件编码方式是ASCII码。在写Python2.X程序的时候,习惯在程序的第一行加上:

#coding=utf-8 

或者

#-*- conding:utf-8 -*-

<2>encode与decode在Python2.X中的示例

#-*-coding:utf-8-*-
#___Author: Damon
#___Date:   2017/8/12
# 显示的编码为GBK
s = '特斯拉'
print s#打印结果:鐗规柉鎷 原因:文件的编码是utf-8的,而cmd中显示字符的文件编码是gbk的,所以,出现乱码,无法识别,
s_to_unicode = s.decode("utf-8")#将utf-8的编码方式转换成Unicode编码方式
print s_to_unicode#打印结果:特斯拉
s_to_unicode_to_gbk = s_to_unicode.encode('gbk')#将Unicode编码方式,转换成gbk的编码方式
print s_to_unicode_to_gbk#打印结果:特斯拉

示例分析及说明:
1)、程序中,代码的编码方式已改为utf-8
2)、程序的的结果显示是在win10 的cmd命令窗口中,窗口显示默认GBK编码方式
3)、若想在cmd命令窗口中,显示utf-8编码方式的文件,可在cmd命令窗口中,输入如下指令:chcp 65001
<3>改变python2.X中默认的编码方式

import sys
print(sys.getdefaultencoding())#打印Python2 中系统默认的编码方式:ASCII
reload(sys)
sys.setdefaultencoding('utf-8')#将python2系统中默认的编码方式(ASCII)改成utf-8
print (sys.getdefaultencoding())#打印更改后的Python2系统中的编码方式

(5)、Python3.X中的编解码问题
<1>Python3对文本(str)和二进制数据(bytes)有了更加清晰的区分。
Python3.X中,文本默认的编码方式是Unicode,由str类型表示,二进制数据则由bytes类型表示。
<2>encode与decode在Python3.X中的示例

#___Author: Damon
#___Date:   2017/8/12
s = 'i am 特斯拉'
print(s)#i am 特斯拉
s_to_utf_8 = s.encode('utf-8')
print(s_to_utf_8 )#b'i am \xe7\x89\xb9\xe6\x96\xaf\xe6\x8b\x89'
s_to_gbk = s.encode('gbk')
print(s_to_gbk)#b'i am \xcc\xd8\xcb\xb9\xc0\xad'
#bytes()函数同encode()函数一样,也是把str类型编码成bytes类型
s_to_gbk = bytes(s,'gbk')
print(s_to_gbk)#b'i am \xcc\xd8\xcb\xb9\xc0\xad'
#解码过程,把bytes数据解码成str类型
s_to_gbk_to_gbk = b'i am \xcc\xd8\xcb\xb9\xc0\xad'.decode('gbk')
print(s_to_gbk_to_gbk)#i am 特斯拉

编码过程是从str到bytes,解码过程是从bytes到str。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值