编码

ISO-8859-1

  • ISO-8859-1编码是单字节编码,向下兼容ASCII,其编码范围是0x00-0xFF(即0-256),总共能表示256个字符。

  • 0x00-0x7F(0到127)之间完全和ASCII一致,0x80-0x9F(128到159)之间是控制字符,0xA0-0xFF(160到255)之间是文字符号。

  • 此字符集涵盖了大多数西欧语言字符,使用得最广泛。

  • ISO-8859-1向下兼容ASCII码。

  • ISO-8859-1使用“?”表示其不能识别的字符。


GB2312

  • GB2312是双字节编码。

  • GB2312编码适用于汉字处理、汉字通信等系统之间的信息交换,通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB2312。

  • GB2312编码的基本集共收入汉字6763个和非汉字图形字符682个。整个字符集分成94个区,每区有94个位。每个区位上只有一个字符,因此可用所在的区和位来对汉字进行编码,称为区位码。


GBK

  • GBK是双字节编码。

  • GBK 向下与 GB 2312 编码兼容,向上支持 ISO 10646.1国际标准,是前者向后者过渡过程中的一个承上启下的产物。

  • GBK编码范围从8140至FEFE(剔除xx7F),共23940个码位,共收录了21003个汉字,比GB2312收录了更多的汉字。

  • 使用GB2312编码的汉字可以用GBk解码,而且不会发生乱码。


Unicode

  • Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。

  • Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。

  • 世界上所有的语言都可以通过Unicode来相互翻译。

  • 简单的说,Unicode是一个把所有文字编号的标准,而UTF-16或者UTF-8就是一种把这些编号转为二进制的方式。


UTF-16

  • UTF-16定义了Unicode在计算机中的存取方法。

  • UTF-16采用两个字节来表示一个字符,是一种定长表示方法,大大简化了字符串操作,这是Java使用UTF-16作为内存的字符存储格式的重要原因。

  • 缺点:很大一部分字符可以用一个字节表示,而使用UTF-16就必须将之扩展为两个字节,从而存储空间增大了一倍。


UTF-8

  • UTF-8是一种可变长度的字符编码,UTF-8用1到4个字节编码Unicode字符。
编码规则:
  • 如果是一个字节的最高位(第8位)为0,表示这是1个ASCII字符。可见,所有的ASCII编码已经是UTF-8了。

  • 如果一个字节以11开头,则连续的1的个数暗示这个字符的字节数,如110xxxxx代表它是双字节UTF-8字符的首字节。

  • 如果一个字节以10开头,表示它不是首字节,则需要向前查找才能得到当前字符的首字节。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值