c++ linux utf-8 编码中文汉字分割（超简单代码）

最新推荐文章于 2025-09-06 21:37:13 发布

原创最新推荐文章于 2025-09-06 21:37:13 发布 · 1.4k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#c++ #linux

linux 专栏收录该内容

14 篇文章

订阅专栏

该博客探讨了UTF-8编码的特性，详细解释了英文字母和汉字在UTF-8编码下所占用的字节数。针对汉字，文章指出其可能占用1到6个字节，并通过最高位的1的数量来确定字节数。同时，提供了用于分割UTF-8编码汉字的代码示例，有助于理解字符串处理和编码转换。

UTF-8 编码对于英文字母，占用一个字节；
UTF-8 编码对于中文字母，占用多个字节，最大占用6个字节，其中第一个字节二进制的最高位连续1的个数来表示占用字节的个数，例如;
汉字“中”占3个字节

“中” ： ‭11100100  10111000  10101101‬ // 最高位连续3个1
“国” ： ‭11100101  10011011  10111101‬  // 最高位连续3个1

实现汉字的分割代码：

vector<string> list;
int strSize = str.size();
int i = 0;

while (i < strSize) {
    int len = 1;
    for (int j = 0; j < 6 && (str[i] & (0x80 >> j)); j++) {
        len = j+1;
    }
    list.push_back(str.substr(i, len));
    i += len;
}

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

PRML_MAN

关注关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

中英文字符串分割算法C++C程序示例

06-10

<> 一些背景知识: 1. 一个汉字在c\c++的存储, 使用2个字节(char)存储; 2. 汉字存储的第一个char, 其值一定大于'~'(0111 1110=126)，否则将导致识别歧义; 此处, 使用"单ASCII字符"来表示非单ASCII字符的判断，可以根据以下规则(主要R3, R4); : 一个字符串的长度==1，那肯定是一个ASCII字符； : 一个字符串的长度==2，且第1个ASCII字符的编码小于'~'；那肯定是2个单ASCII字符； -- (PS: "") : 一个字符串的长度==3，且中间的ASCII字符的编码小于'~'；那第3个肯定是单ASCII字符； (前2个是否构成1个汉字不能确定) : (基于R3)如果第pos个位置的ASCII字符编码小于'~'，那从下标pos,pos+1处拆分字符串 (下标pos归前串),将不会导致乱码; A 或者 B 的选择，需要知道以下信息： (1). 从 cut_base_pos 开始到 pos_B 结束的这段字符串内，最后一个单ASCII字符的结束下标 p 在此基础上，若使用: y -- 表示单ASCII字符(已确定的)； x -- 表示可能是单ASCII字符，也可能是汉字的半个ASCII存储码；那么一段长度为N的字符串,按照存储的ASCII码可以表示为一串如下的字符串(不包含[]) "x .. x][x .. x y x .. x][x .. x", 其中 s,e表示当前正在分析的一段子串(0<=s<e<=N, 下标e-s = 期望的分割长度cut_size) ^ ^ ^ ^ ^ 0 s p e N 在【s, e】之间, 查找结束下标p 的思路: 从e开始向s查找, 找到第一个y 后 break; 记录下标p, 则从位置p开始, 是一个正确的分割(cut); 但此分割并不是一个最好的分割. 可以在位置p上, 再加上 2K 个长度, 使 p+2K 与 pos_B 最接近即可. 可以认为从2K个长度的内容是K个汉字(实际上并不一定..), 但并不影响这个最佳分割的正确性！ :）

linux C 汉字串与utf-8串相互转化代码

09-03

linux C/c++ 源代码，将中文字串与UTF-8格式字串相互转化，我在项目中使用的代码，完全可用

参与评论您还未登录，请先登录后发表或查看评论

c++ linux utf-8 utf8 字符串分割中文分割汉字分割

十弌

02-19

4713

#include #include int main()//输入str字串，依次输出分割好的chr，chr为linux默认的utf8 { using namespace std; string str;//一串包含汉字的字串 cin >> str; string strChar;//str中的一个汉字 for(int i = 0; s

Linux - 中文显示乱码问题解决方法(编码查看及转换）- 学习/实践

最新发布

"代码"的日常搬运

09-06

1538

《Linux中文乱码问题解决方案》摘要本文系统介绍了Linux环境下中文显示乱码的成因与解决方法。乱码主要由编码不一致引起，推荐统一使用UTF-8编码。解决方案包括：1)检查并配置系统locale为zh_CN.UTF-8；2)设置终端模拟器编码为UTF-8；3)使用file/enca工具检测文件编码，用iconv进行转换；4)配置SSH客户端编码；5)检查特定应用的编码设置。核心建议是统一使用UTF-8编码，并注意在转换文件前做好备份。

linux c编译 utf-8,在Linux C编程中使用Unicode和UTF-8

weixin_29533443的博客

05-01

977

在Linux C编程中使用Unicode和UTF-8目前各种Linux发行版都支持UTF-8编码，当前系统的语言和字符编码设置保存在一些环境变量中，可以通过locale命令查看：$ localeLANG=en_US.UTF-8LC_CTYPE="en_US.UTF-8"LC_NUMERIC="en_US.UTF-8"LC_TIME="en_US.UTF-8"LC_COLLATE="en_US.UT...

LINUX下C编程的UTF-8解码编码问题

weixin_33885253的博客

03-12

329

紧急求助！LINUX下C编程的UTF-8解码编码问题 - C/C++ - ChinaUnix.net - lingzhuxuan 白手起家帖子 5 主题 2 精华 0 可用积分 16 专家积分 0 在线时间 193 小时注册时间 2006-...

C++里将string类字符串（utf-8编码）分解成单个字（可中英混输）

shifuren的博客

04-09

824

　1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。　　2）对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。　　如表： 1字节 0xxxxxxx 2字节 110x...

跨平台C++库：完美处理UTF-8编码

UTF-8编码是一种针对Unicode字符集的可变长度字符编码，它可以表示几乎所有的现代字符集，从最基本的拉丁字母到复杂的汉字，因此它成为了处理国际化文本的首选编码。然而，由于C++标准库对UTF-8的原生支持不足，当...

C++读取UTF-8文件

03-30

在C++中读取UTF-8编码文件需要特别注意编码处理，以下是分步骤解决方案： 1. **选择文件打开模式** 建议使用二进制模式打开文件，避免系统自动转换换行符： ```cpp #include #include std::ifstream file(...

字体抗锯齿+中文显示全搞定：UTF-8编码与字模压缩技术实战指南

# 1. 字体渲染中的抗锯齿与中文显示... UTF-8编码原理与字符处理机制在现代软件系统中，文本的表示和处理早已超越了ASCII时代单字节字符的范畴。随着全球化信息交流的深入，尤其是中文、日文、韩文等复杂文字系统的广

如何用C++将一个文本分子使用UTF-8方法

03-17

好的，我现在需要回答用户关于如何在C++中处理UTF-8编码文本的问题。首先，我得回顾一下用户提供的引用资料，看看有哪些可用的信息。用户提到了五个引用，其中引用[1]、[2]是关于utfcpp库的，引用[3]到[5]讨论了不同...

C++ 怎么吧string 转为utf-8并且吧转化后的内容存入char[1024]中

06-28

如果当前`std::string`中存储的是UTF-8编码的字符串，那么我们可以直接将其内容复制到`char[1024]`中。但如果它是其他编码（如Latin-1或UTF-16），则需要先进行转换。然而，问题要求将字符串转为UTF-8并存入`char...

C++各种编码转换 Unicode UTF8

05-27

C++各种编码转换 Unicode UTF8

C++ 汉字UTF-8字符串处理类库

09-03

很多人喜欢用CString 或std:string，但是他们的缺点是不能完成汉字各种类型之间的转换，提供三种类库ascString,ucsString,utfString以及工具utfCount,utf8_ucs2_t,tcf8_ucs4_t类库，用于各种字符串之间的直接转换`操作`统计。简化中文软件的设计和输出。空间名称：UCS 请用如下命令: using namespace UCS;

utf8编码解码的纯C++代码

07-10

utf8编码解码的纯C++代码仅在Visual Studio 2005 /2010 调试通过将utf8字节流解码为宽字符（wchar_t）时，结果的正确性依赖于sizeof(wchar_t) 具体来说就是wchar_t是否有足够的空间容纳 UNICODE码

Linux C gbk utf-8编码转换

weixin_34357436的博客

09-30

161

2019独角兽企业重金招聘Python工程师标准>>> ...

linux c实现对utf-8字符转换为unicode编码的转换

jiangjiankang的专栏

06-17

1524

linux C 代码实现中文和字符转化为UNICODE编码的函数

c++ linux utf-8 编码 中文汉字分割（超简单代码）

c++ linux utf-8 编码中文汉字分割（超简单代码）