如何使用cpp对中文字符串进行分隔

最新推荐文章于 2025-03-02 10:44:18 发布

原创最新推荐文章于 2025-03-02 10:44:18 发布 · 1.1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#cpp #c++

cpp 专栏收录该内容

10 篇文章

订阅专栏

其实不只是中文，英文，emoji都可以分隔开来

代码如下：

// https://stackoverflow.com/questions/40054732/c-iterate-utf-8-string-with-mixed-length-of-characters
// C++ iterate utf-8 string with mixed length of characters
#include <iostream>
#include <string>
#include <vector>

std::vector <std::string> split_chinese(std::string s) {
    std::vector <std::string> t;
    for (size_t i = 0; i < s.length();) {
        int cplen = 1;
        // 以下的几个if，要参考这里 https://en.wikipedia.org/wiki/UTF-8#Description
        if ((s[i] & 0xf8) == 0xf0)      // 11111000, 11110000
            cplen = 4;
        else if ((s[i] & 0xf0) == 0xe0) // 11100000
            cplen = 3;
        else if ((s[i] & 0xe0) == 0xc0) // 11000000
            cplen = 2;
        if ((i + cplen) > s.length())
            cplen = 1;
        t.push_back(s.substr(i, cplen));
        i += cplen;
    }
    return t;
}

int main(int argc, char *argv[]) {
    std::string s = "我爱中文，我爱coding🤪";
    std::vector <std::string> t = split_chinese(s);
    for (auto a: t) {
        std::cout << a << std::endl;
    }
    return 0;
}

运行

build

clang++ SplitString.cpp -o splitString -std=c++17

run

./splitString

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

yuanzhoulvpi

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

中英文字符串分割算法C++C程序示例

06-10

<> 一些背景知识: 1. 一个汉字在c\c++的存储, 使用2个字节(char)存储; 2. 汉字存储的第一个char, 其值一定大于'~'(0111 1110=126)，否则将导致识别歧义; 此处, 使用"单ASCII字符"来表示非单ASCII字符的判断，可以根据以下规则(主要R3, R4); : 一个字符串的长度==1，那肯定是一个ASCII字符； : 一个字符串的长度==2，且第1个ASCII字符的编码小于'~'；那肯定是2个单ASCII字符； -- (PS: "") : 一个字符串的长度==3，且中间的ASCII字符的编码小于'~'；那第3个肯定是单ASCII字符； (前2个是否构成1个汉字不能确定) : (基于R3)如果第pos个位置的ASCII字符编码小于'~'，那从下标pos,pos+1处拆分字符串 (下标pos归前串),将不会导致乱码; A 或者 B 的选择，需要知道以下信息： (1). 从 cut_base_pos 开始到 pos_B 结束的这段字符串内，最后一个单ASCII字符的结束下标 p 在此基础上，若使用: y -- 表示单ASCII字符(已确定的)； x -- 表示可能是单ASCII字符，也可能是汉字的半个ASCII存储码；那么一段长度为N的字符串,按照存储的ASCII码可以表示为一串如下的字符串(不包含[]) "x .. x][x .. x y x .. x][x .. x", 其中 s,e表示当前正在分析的一段子串(0<=s<e<=N, 下标e-s = 期望的分割长度cut_size) ^ ^ ^ ^ ^ 0 s p e N 在【s, e】之间, 查找结束下标p 的思路: 从e开始向s查找, 找到第一个y 后 break; 记录下标p, 则从位置p开始, 是一个正确的分割(cut); 但此分割并不是一个最好的分割. 可以在位置p上, 再加上 2K 个长度, 使 p+2K 与 pos_B 最接近即可. 可以认为从2K个长度的内容是K个汉字(实际上并不一定..), 但并不影响这个最佳分割的正确性！ :）

字符串按指定的字符串进行分隔

11-04

字符串按指定的字符串进行分隔是一项常见的操作，它可以帮助我们解析和分析数据。本篇将详细探讨如何在C++中实现这一功能，同时涵盖指针和字符串处理的相关知识。首先，当我们知道分隔符的数量时，可以使用`strtok...

参与评论您还未登录，请先登录后发表或查看评论

CPP中字符串分割函数，split

冰冻三尺非一日之寒

02-04

4609

cpp的标准库函数中没有字符串分割函数，而这个函数又是经常需要用到的，有必要写出一个模板，背会以便使用 void split(string str,vector<string> &v,string spacer) { int pos1,pos2; int len=spacer.length(); //记录分隔符的长度 pos1=0; po...

C/C++ 字符串分割

cpp_learner的博客

05-16

953

字符串分割。将一个字符串按照某一个字符去分割成多个字符串。

现代C++字符串分割

qq_50267418的博客

02-04

858

C++语言作为一门神级语言，在基于C语言的基础上加入多种新特性，各种新的语法糖，以及容器，算法库，好用的一批。尤其是string类，可完全替换c中的char *string的功能很强大，它提供了一些很好的接口来帮助我们操作字符串，但好像没有提供一种字符串分割的方法，不过可以基于string类的原生接口，加上容器来实现字符串的分割方法，下面介绍一种C++string分割的方法，基于string和vector。

C++ 带中文字符串分割

ya4599的博客

11-17

1760

两种方式分割字符串,一种按分隔符分割,一种按指定长度分割.

Arduino 分割字符串库，strFenGe.rar

12-28

`String` 类提供了许多方法，如 `concat()`, `substring()`, `indexOf()`, `charAt()` 等，用于对字符串进行常见操作。然而，`String` 类在内存管理上存在一些限制，尤其是在处理大量字符串操作时可能导致内存碎片。...

详解C++的String类的字符串分割实现

01-20

当我们需要将一个字符串按照特定的分隔符切割成多个子字符串时，可以自定义函数或者使用已有的字符串操作方法来实现。下面我们将详细探讨如何在C++中实现字符串的分割功能，以满足标题和描述中的需求。首先，让...

字符串解析成字符串数组.cpp

12-15

纯C语言将字符串按照分隔符解析成字符串数组，C语言模式下采用SStream和getline实现解析方式，方法简单明了

如何在c++中实现字符串分割函数split详解

08-25

2. 数据透明处理：由于istringstream会像cin一样，把空格视为数据间的界限，所以当分隔符不是空格时，需要将传入的分隔符换为空格，并且要提前对原有空格进行数据透明处理字符替换。 3. 数据分割：在实现字符串分割...

c/cpp中如何分割字符串，类似于split的功能

bg2bkk的专栏

07-08

1万+

C++中的Split函数（字符串自动分割）

热门推荐

Benson的学习笔记

09-18

2万+

函数原型：C/C++中的Split函数是strtok()，其函数原型如下: char * strtok (char * str, const char * delimiters); 函数说明：strtok()用来将字符串分割成一个个片段。参数str指向欲分割的字符串，参数delimiters则为分割字符串，当strtok()在参数str的字符串中发现到参数delimiters的分割字符时则

c/cpp中怎样切割字符串，相似于split的功能

weixin_34198762的博客

01-27

153

在python中，假设要求当前时间的unix时间戳，我特别喜欢这么用: import time timestr = time.time() timestamp = int(timestr.split('.')[0]) 这里的split函数，我非常喜欢，在java、c#和python中都有，非常方便，不用操心踩地雷，可是C/CPP中，就没有了，这点比較遗憾。假设要...

C++ 字符串分割

Fyantu的博客

03-02

998

C与C++风格的字符串辨析C++风格的字符串 string 类型，是STL标准库提供的模板类容器，它支持迭代器，作为类有许多直接的成员函数可以调用（C风格字符串需要调用库里的函数才可以实现相同的功能）

C++ string字符串分割

qq_38616559的博客

08-11

4352

采用C语言中的strtok 函数来进行分割 strtok函数包含在头文件<string.h>中，对于字符数组可以采用这种方法处理。当然也可以将字符数组转换成字符串之后再使用法一。测试代码如下 int main() { string str= "a,b*c,d"; const char *sep = ",*"; //可按多个字符来分割 char *p; p = strtok((char*)str.c_str(), sep); while (p){ printf("%s ", p);

【c/c++】关于中文字符串的复制切割

e345ug的博客

05-08

1387

在使用strncpy()函数进行字符串的复制时，有时候会出现这样的情况：目标字符串的最后一个字符是非法字符，导致写入数据库时报错；【以GBK编码为例】原因在于一个中文字符占两个字节，假如需要写入的字符串长度是30，而恰巧第30位和第31位字节存储的是汉字，这样就会将汉字编码切割开来。然后与之后的字符（例如sql中，后面会加一个单引号）进行组合，形成意料之外的中文字符。 GBK编码采用双字节编码方案，其编码范围为：8140－FEFE，剔除xx7F码位，共23940个码位。其中中文...

c++字符串分割方法

厚积薄发，博观约取

01-26

689

c++字符串分割方法

C/C++字符串分割

从旁观者的角度

08-27

578

C/C++语言用于字符串分割的函数 * count: 分割后的字符串长度 * limit: 分割多少次char ** strsplit(char *line, char delimeter, int *count, int limit) { char *ptr = NULL, *str = line; char **vector = NULL; *count = 0;

C/C++ Split 函数字符串切割两个实现

liulilittle的博客

01-27

1254

1、此方法与 .NET Framework 提供得字符串切割算法效果不同，它是以明确的 “分割符字符串” 对字符串进行分割。 int Split(const std::string& str, std::vector<std::string>& tokens, const std::string& delimiters) { if (str.empty()) { return 0; } e

cpp切割字符串函数

最新发布

11-05

<think>我们在之前的对话中讨论过C++的字符串分割函数，现在用户明确询问C++中用于切割字符串的函数。根据提供的引用，特别是引用[2]和引用[4]，它们展示了两种不同的字符串分割实现方法。引用[2]中的代码实现了一种常见的分割方法，它通过循环查找分隔符模式(pattern)来切割字符串。该函数接受两个参数：待分割的字符串str和分隔符pattern，返回一个包含分割后子字符串的向量。引用[4]中的代码则使用了另一种方法，它利用了find_first_not_of和find_first_of函数来定位分隔符之间的内容。这种方法可以处理多个连续的分隔符，并且代码中使用了标准库中的字符串操作函数。此外，引用[1]和引用[3]提到了C++中的字符函数、字符串函数和内存函数，但没有直接给出分割字符串的函数。不过，它们强调了这些函数的重要性。在C++标准库中，并没有一个直接名为“split”的函数，但我们可以使用<string>头文件中的成员函数来实现分割功能。常见的做法是使用find或find_first_of等函数来定位分隔符，然后用substr提取子串。因此，我将向用户介绍两种常见的实现方法，并解释它们的原理。同时，我会提醒用户C++17引入了std::string_view，可以用于更高效的分割（避免拷贝），但考虑到兼容性，我将主要展示传统方法。最后，按照要求生成相关问题。 </think>在C++中，标准库没有直接提供字符串切割函数，但可通过以下方法实现字符串分割： ### 方法1：使用`std::string::find`（引用[2]实现） ```cpp #include <vector> #include <string> std::vector<std::string> split(std::string str, std::string pattern) { std::vector<std::string> result; str += pattern; // 添加分隔符保证能处理结尾 size_t size = str.size(); for(size_t i = 0; i < size; i++) { size_t pos = str.find(pattern, i); if(pos < size) { result.push_back(str.substr(i, pos - i)); i = pos + pattern.size() - 1; // 跳过分隔符 } } return result; } ``` **特点**： - 显式添加分隔符确保处理边界 - 使用`find()`定位分隔符位置 - 时间复杂度：$O(n)$，$n$为字符串长度[^2] ### 方法2：使用`find_first_of`（引用[4]优化版） ```cpp void split(const std::string& s, std::vector<std::string>& tokens, const std::string& delim = " ") { tokens.clear(); size_t start = s.find_first_not_of(delim, 0); size_t end = s.find_first_of(delim, start); while(start != std::string::npos || end != std::string::npos) { tokens.push_back(s.substr(start, end - start)); start = s.find_first_not_of(delim, end); end = s.find_first_of(delim, start); } } ``` **优势**： - 自动跳过连续分隔符（如"a,,b"） - 引用传参避免拷贝大字符串 - 支持自定义多字符分隔符[^4] ### 其他方案 1. **流处理法**（适合空格分隔）： ```cpp std::vector<std::string> split_stream(const std::string& s) { std::istringstream iss(s); return {std::istream_iterator<std::string>{iss}, {}}; } ``` 2. **C++17 `std::string_view`**（零拷贝高效处理）： ```cpp std::vector<std::string_view> split_sv(std::string_view strv, std::string_view delim = " ") { std::vector<std::string_view> output; for (auto pos = strv.find(delim); pos != strv.npos; ) { output.push_back(strv.substr(0, pos)); strv.remove_prefix(pos + delim.size()); } output.push_back(strv); return output; } ``` ### 性能对比 | 方法 | 时间复杂度 | 内存开销 | 适用场景 | |--------------------|------------|----------|------------------------| | `find`循环 | $O(n)$ | 中 | 通用分割 | | `find_first_of` | $O(n)$ | 低 | 含连续分隔符的情况 | | 流处理 | $O(n)$ | 高 | 简单空格分割 | | `string_view` | $O(n)$ | 最低 | C++17+ 高频切割大字符串[^4] | > 提示：对于包含中文等宽字符的字符串，需确保分隔符与字符串编码一致（如UTF-8使用多字节分隔符）