python中的编码是采用unicode编码的,在做编译转换时,需要使用unicode作为中间编码:
情况一:编码一-->unicode编码
将其他编码的字符串解码:decode成unicode;
a.decode(‘gb2312’)
或者:
unicode.unicode(a,'gb2312')
情况二:unicode编码-->编码一从unicode编码成另一种编码就使用encode!
a.encode("gb2312")
情况三:编码一-->编码二:就是两种非unicode编码之间的转化呢?
编码一----->解码为unicode----->编码成编码二
unicode.unicode(a,'gb2312').encode("ascii")
用法:str.decode("ascii"):将ascii编码的字符串str解码称为unicode编码
str.encode("ascii"),将unicode 编码转化成ascii编码!
在编码之前,首先应该知道的是,原始字符串的编码格式:
在python中,可以通过第三方库chardet进行查询:
ascii编码,就是unicode一个子集么?因为我发现,一个ascii编码的字符串,判断其是不是unicode编码的时候,结果返回的是True!(这几个的关系,不太懂!)
如何判断一个字符串是不是unicode编码呢?
======================UTF-8的情况======================================
如果有一个test = "钓鱼岛是中国的"!
上述情况,如果在UTF-8文件中,它就是UTF-8编码,如果在GB2312文件中,那就是GB2312编码,那如果需要在这两个编码之间转化呢?首先进行解码(decode),称为unicode编码,再进行编码encode,如果一个编码已经是unicode编码了,如果再次对其进行编码将会出错。
如果指定文件的编码方式,那么就按照系统默认的编码方式,按照如下的语句查询系统的默认编码方式
上图是python2.7.3的默认编码方式,
是python3的编码方式