以前一直不知道unicode,UTF8这些字符编码是什么意思, 最近啊学习python语言在网上教程廖雪峰的官方网站上发现了很好的解释。
这里给大家分享一下:
最早的字符编码是ASCII码,包括9个数字和26个字母的大小写以及一些符号,一共127个。
ASCII编码里用一个字节(8个二进制位)表示一个字母,一个中文文字需要2个字节,这样ASCII无法表示中文,于是国人就创立了GB2312编码
对应各国都有自己的编码,但是这些编码都只能表示本国文字,如果包含多国文字就会出现乱码,于是统一字符编码应运而生,这就是unicode
unicode用两个字节表示一个字符,表示英文时后八位有效,前八位补零,对于全是英文的文章就会造成浪费。于是就产生了一种可压缩编码,就是UTF-8
以下是引自该网站的字符编码例子
字符 | ASCII | Unicode | UTF-8 |
---|---|---|---|
A | 01000001 | 00000000 01000001 | 01000001 |
中 | x | 01001110 00101101 | 11100100 10111000 10101101 |