字符集(重点内容)
常见字符集介绍
标准ASCII字符集
- ASCII(American Standard Code for Information Interchange): 美国信息交换标准代码,包括了英文、符号等。
- 标准ASCII使用1个字节存储一个字符,首位是0,因此,总共可表示128个字符,对美国佬来说完全够用。
- 只有英文、数字、符号等,占一个字节。
GBK(汉字内码扩展规范,国标)
- 汉字编码字符集,包含了2万多个汉字等字符,GBK中一个中文字符编码成两个字节的形式存储。
- 注意:GBK兼容了ASCII字符集。
- GBK规定:汉字的第一个字节的第一位必须是1。
- 汉字占2个字节,英文、数字占1个字节。
Unicode字符集(统一码,也叫万国码)
Unicode是国际组织制定的,可以容纳世界上所有文字、符号的字符集。
UTF-8字符集
- 是Unicode字符集的一种编码方案,采取可变长编码方案,共分四个长度区:1个字节,2个字节,3个字节,4个字节
- 英文字符、数字等只占1个字节(兼容标准ASCII编码),汉字字符占用3个字节。
注意:技术人员在开发时,统一使用UTF-8编码!
注意事项:
- 注意1:字符编码时使用的字符集,和解码时使用的字符集必须一致,否则会出现乱码
- 注意2:英文,数字一般不会乱码,因为很多字符集都兼容了ASCII编码。
字符集的编码、解码操作
对字符的编码
将字符串转化为字节数组
Java |
对字符的解码
将字节数组转化为字符串
Java |