字符集

最新推荐文章于 2024-02-09 09:10:33 发布

tianxiawuti

最新推荐文章于 2024-02-09 09:10:33 发布

阅读量417

点赞数

CC 4.0 BY-SA版权

分类专栏： JavaSE学习记录文章标签： Java

本文链接：https://blog.youkuaiyun.com/tainxiawuti/article/details/99296603

JavaSE学习记录专栏收录该内容

120 篇文章

订阅专栏

字符集：编码，解码的一种方式
常见的编码表

ASCII：美国标准信息交换码。用一个字节的7位可以表示（一个字节只用了7位）
ISO8859-1：拉丁码表。欧洲码表，用一个字节的8位表示
GB2312：中国的中文编码表（每个汉字对应二进制的一个数）。最多两个字节（也就是说也有一个字节的情况，这里的意思不是说用两个字节进行表示，前面的都是0，这种全是0的那个字节就浪费了）编码所有字符
GBK：中国的中文编码表升级，融合了更多的中文文字符号（包含简体和繁体）。最多两个字节编码（那给两个字节，到底是一个字节表示一个字符还是两个字节合起来表示一个字符呢?)
Unicode：国际标准码，融合了目前人类使用的所有字符。为每个字符分配唯一的字符码。所有的文字都用两个字节来表示。
UTF-8：变长的编码方式，可用1-4个字节来表示一个字符。
英文不会出现乱码
UTF-8，GBK,GB2312兼容了ASCII，比如ASCII中’a’用一个字节表示，为97，在这些字符集中‘a’还是用97表示，用一个字节表示，好处是节省空间
最多两个字节编码（那给两个字节，到底是一个字节表示一个字符还是两个字节合起来表示一个字符呢？)
解决办法：看首位
对于GBK和GB2312：如果字节的首位是0，那这个字节单独就表示一个字符。如果一个字节的首位是1，那就说明需要和另外一个字节来表示一个字符

Unicode的产生背景:如果一个文件中有多个国家的文字，用哪个字符集呢？

Unicode的问题：内存层面存两个字节的数据没有问题，但存到底层的文件中就有事了。因为所有的文字都用两个字节来表示，给两个字节，是整体上作为1个字符呢，还是是两个分别的字符
如果采用GBK的解决方式，最高位就被占用了，不用来表示具体的字符，就从2^16变成了 2^15,就不够用了。
Unicode不完美，这里就有三个问题，一个是，我们已经知道，英文字母只用一个字节表示就够了，第二个问题是如何才能区别Unicode和ASCII？计算机怎么知道两个字节表示一个符号，而不是分别表示两个符号呢？第三个，如果和GBK等双字节编码方式一样，用最高位是1或0表示两个字节和一个字节，就少了很多值无法用于表示字符，不够表示所有字符。Unicode在很长一段时间内无法推广，直到互联网的出现。

面向传输的众多 UTF（UCS Transfer Format）标准出现了，顾名思义，UTF8就是每次8个位传输数据，而UTF-16就是每次16个位。这是为传输而设计的编码，并使编码无国界，这样就可以显示全世界上所有文化的字符了。
Unicode只是定义了一个庞大的、全球通用的字符集，并为每个字符规定了唯一确定的编号，具体存储成什么样的字节流，取决于字符编码方案。推荐的 Unicode编码是UTF-8和UTF-16。