note 目录
- utf8 字符规律
- utf8 中文字符的大小(占多少个字节)
- utf8 字符串的长度
- utf8 获取字符串的子串
- 测试example
1: utf8 字符规律
字符串的首个byte表示了该utf8字符的长度
utf8单个字符可以有4种字节来存储:1个字节,2个字节,3个字节,4个字节。
- 如果第一个一个字节的第一位为0,那么代表当前字符为单字节字符,占用1个字节的空间。
- 如果第一个一个字节以110开头,那么代表当前字符为双字节字符,占用2个字节的空间。
- 如果第一个一个字节以1110开头,那么代表当前字符为三字节字符,占用3个字节的空间。
- 如果第一个一个字节以11110开头,那么代表当前字符为四字节字符,占用4个字节的空间。
1.1 1个字节
0xxxxxxx - 1 byte
第一位为0,后面7位可以是任意的,则最大的值为:01111111 —> 127
1.2 2个字节
110xxxxx - 192, 2 byte
前3为固定为110,则最最小为:11000000 —> 192
1.3 3个字节
1110xxxx - 225, 3 byte