UTF-8 编码对于英文字母,占用一个字节;
UTF-8 编码对于中文字母,占用多个字节,最大占用6个字节,其中第一个字节二进制的最高位连续1的个数来表示占用字节的个数,例如;
汉字“中”占3个字节
“中” : 11100100 10111000 10101101 // 最高位连续3个1
“国” : 11100101 10011011 10111101 // 最高位连续3个1
实现汉字的分割代码:
vector<string> list;
int strSize = str.size();
int i = 0;
while (i < strSize) {
int len = 1;
for (int j = 0; j < 6 && (str[i] & (0x80 >> j)); j++) {
len = j+1;
}
list.push_back(str.substr(i, len));
i += len;
}
该博客探讨了UTF-8编码的特性,详细解释了英文字母和汉字在UTF-8编码下所占用的字节数。针对汉字,文章指出其可能占用1到6个字节,并通过最高位的1的数量来确定字节数。同时,提供了用于分割UTF-8编码汉字的代码示例,有助于理解字符串处理和编码转换。
4713

被折叠的 条评论
为什么被折叠?



