由于汉字是2个字符(这里不讨论可变字符的情形),因此,在C语言中,用一个固定长度的buffer 存放包含汉字的字符串,就有汉字被截断从而导致半个汉字的情形的出现。半个汉字的存在,对字符串的后续处理,会带来一定的麻烦,比如在xml文档、或者SQL语句中,如果存在半个汉字,就会导致xml解析失败,或者sql执行错误的异常。为了解决这个问题,有必要找到并删除半个汉字,或者存放的时候,即便截断,也不产生新的半个汉字。
以下是我近期对半个汉字的处理,C++代码如下:
- // strSrc: 原始字符串
- // nMaxLen: 截断后的最大长度
- char *GetTruncate(char *strSrc, int nMaxLen)
- {
- if (strSrc == NULL || nMaxLen == 0)
- {
- return NULL;
- }