
中文处理
文章平均质量分 68
波特王子
csdn太难用了,唉
展开
-
关于C++中文字符的处理
来源:http://hi.baidu.com/itpassion/blog/item/a3ba09c286c83a34e4dd3bf2.html一 引入问题代码 wchar_t a[3]=L”中国”,编译时出错,出错信息为:数组越界。但wchar_t 是一个宽字节类型,数组a的大小应为6个字节,而两个汉字的的unicode码占4个字节,再加上一个结束符,最多6个字节,所转载 2009-09-04 20:59:00 · 805 阅读 · 0 评论 -
关于UNICODE字符集
UNICODE字符集有多个编码方式,分别是UTF-8,UTF-16和UTF-32。UTF-8:采用变长字节 (1 ASCII, 2 希腊字母, 3 汉字, 4 平面符号) 表示,如果只有一个字节则其最高二进制位为0;如果是多字节,其第一个字节从最高位开始,连续的二进制位值为1原创 2011-09-13 09:17:53 · 1154 阅读 · 0 评论 -
ReadUtf8ToString
bool ReadUtf8ToString(const string &filename, string &content){ content = ""; FILE *myfile; wchar_t *name= new wchar_t[filename.length原创 2011-09-16 23:10:41 · 1219 阅读 · 0 评论 -
ICTCLAS java调用接口改动(zz陈天)
由于ICTCLAS官方并没有发布DLL文件,但是发布了exe程序,和源码。根据源码重新封装了DLL,并且做了相应的改动。主要改动如下:因为免费版没有DLL提供,所以这个DLL是在分词.exe系统的源代码上改的,接口也和中科院的文档有些不一样.因为我觉得中科院提供的接口太多,用起来比较麻烦. 全部改动如下:init函数:中科院的DLL没有参数,我提供两个参数,i=nOutputFor转载 2012-06-24 02:11:51 · 8230 阅读 · 0 评论 -
计算所汉语词性标记集
计算所汉语词性标记集Version 3.0制订人:刘群张华平张浩 0. 说明计算所汉语词性标记集主要用于中国科学院计算技术研究所研制的汉语词法分析器、句法分析器和汉英机器翻译系统。本标记集主要参考了以下词性标记集:1. 北大《人民日报》语料库词性标记集;2. 北大2002新版词性标记集(草稿);3.转载 2012-07-07 23:03:45 · 2410 阅读 · 0 评论 -
汉语词性对照表[北大标准/中科院标准]
词性编码词性名称 注 解Ag形语素 形容词性语素。形容词代码为 a,语素代码g前面置以A。 a形容词 取英语形容词 adjective的第1个字母。 ad副形词 直接作状语的形容词。形容词代码 a和副词代码d并在一起。 an转载 2012-07-07 23:00:49 · 3710 阅读 · 0 评论 -
char* 转 BSTR
#define _AFXDLL#include #include #include using namespace std;int main(){ char *file = "中国"; CString cstring = CString(file); BSTR bstr = cstring.AllocSysString();}原创 2013-05-01 16:01:17 · 1422 阅读 · 0 评论 -
Linux查看文件编码格式及文件编码转换
如果你需要在Linux 中操作windows下的文件 ,那么你可能会经常遇到文件 编码 转换的问题。Windows中默认的文件 格式是GBK(gb2312),而Linux 一般都是UTF-8。下面介绍一下,在Linux 中如何查看 文件 的编码 及如何进行对文件 进行编码 转换。查看 文件 编码在Linux 中查看 文件 编码 可以通过以下几种方式:1.在Vim 中可以直接查看 文转载 2013-08-14 15:11:55 · 914 阅读 · 0 评论 -
例详细介绍各种字符集编码转换问题
本文背景:本人在编程时需要匹配字符串,由此想到了如果文件是各种字符编码的话,匹配结果有可能不正确,那么,如何判断不同的字符集?如何在不同字符集之间做转换?对于UNICODE编码逐渐通用的情况下,我们软件人员如何从容应对? 本文首先对常用字符集进行总结,然后在字符集的显示及转换转载 2011-09-12 22:12:30 · 919 阅读 · 0 评论 -
读取filename文件的内容到wstring
//读取filename文件的内容到wstring bool ReadFileTowstring(const char *szfile, wstring &content) { CString filename(szfile); /原创 2011-09-12 22:00:36 · 2770 阅读 · 0 评论 -
Character code tableGB2312
GB2312收录简化汉字及符号、字母、日文假名等共7445个图形字符,其中汉字占6763个。GB2312规定“对任意一个图形字符都采用两个字节表示,每个字节均采用七位编码表示”,习惯上称第一个字节为“高字节”,第二个字节为“低字节”。GB2312-80包含了大部分常用的一、二级汉字,和9区的符号。该字符集是几乎所有的中文系统和国际化的软件都支持的中文字符集,这也是最基本的中文字符集。其编码范围是高转载 2009-09-04 19:23:00 · 36998 阅读 · 0 评论 -
全角字符 半角字符
全角字符(Full-width characters)指一个字符占用两个标准字符位置。汉字字符和规定了全角的英文字符及国标GB2312-80中的图形符号和特殊字符都是全角字符。一般的系统命令是不用全角字符的,只是在作文字处理时才会使用全角字符。 简单地讲,全角字符占用2个字符位置,半角字符(Half-width characters)占用1个字符位置。他们在应用上的区别主要表原创 2009-10-27 20:14:00 · 3809 阅读 · 0 评论 -
【转载】:Boost正则表达式汉字匹配
思路:把字符都转换成宽字符,然后再匹配。需要用到以下和宽字符有关的类:1、wstring:作为STL中和string相对应的类,专门用于处理宽字符串。方法和string都一样,区别是value_type是wchar_t。wstring类的对象要赋值或连接的常量字符串必须以L开头标示为宽字符。2、wregex:和regex相对应,专门处理宽字符的正则表达式类。同样可以使用rege转载 2009-12-03 09:41:00 · 3375 阅读 · 3 评论 -
GBK编码表
全国信息技术标准化技术委员会 汉字内码扩展规范(GBK) Chinese Internal Code Specification 1.0 版 (按编码顺序排列)81 0 1 2 3 4 5 6 7 8 9 A B C D E F4 丂 丄 丅 丆 丏 丒 丗 丟 丠 両 丣 並 丩 丮 丯 丱5 丳 丵 丷原创 2009-12-07 08:47:00 · 109501 阅读 · 0 评论 -
full2half & half2full
/***********************************************************************将任意输入的字符串做半角变全角***********************************************************************/void half2Full(string source, string &des原创 2009-12-08 10:51:00 · 1044 阅读 · 0 评论 -
char,wchar_t,TCHAR 三者的区别与联系(ZZ)
char,wchar_t,TCHAR 三者的区别与联系 char wchar_t TCHARTCHAR根据预定义情况,可以是char和wchar_t中的一种,不再是什么特殊类型。char是个8位一个字节的正数,也就是首位为0;char型可以读写汉字,但由于汉字需要2个字节来表示,因此实际操作时有很多不便之处.缺点如下:1 引用字符数组中的汉字不方便.如 char ch[]="真不方便";转载 2009-12-23 19:40:00 · 2728 阅读 · 1 评论 -
setlocale同mbstowcs函数的关系(ZZ)
setlocale同mbstowcs函数的关系程序中,如果要将ASCII码字符串转换为宽字符(Unicode),可以利用标准C的mbstowcs函数。 微软在MSDN中有示例,如下: 然而,这段代码在处理含有汉字的字符串时就会出现问题。比如将: 替换为 查看运行结果就会发现,mbstowcs函数将汉字视作两个ASCII字符,这样一个汉字就变成了两个wchar_t。原转载 2009-12-23 21:57:00 · 4100 阅读 · 0 评论 -
在UltraEdit的查找和替换中使用正则表达式 (转)
很多朋友都用过或者正在用UltraEdit,这个编辑器陪伴我也好几年了,从很多地方影响着我写代码的快捷键习惯,Ultraedit提供了非常丰富的编辑功能,其中非常重要的查找和替换功能一定大家都用过,Ultraedit提供的查找替换功能非常方便和强大,可以在单独文件里面查找替换,也可以在多个文件、多个目录里面进行查找替换。而我们在使用这些查找替换功能的时候,一般都是针对某个字符串进行,前两转载 2009-11-18 12:11:00 · 523 阅读 · 0 评论 -
C++查找找目录下的文件
bool FindFilesInFolder(const string &inFolder, vector &vecFiles) { using namespace std; //首先判断此目录是否符合完整格式 string原创 2011-09-12 22:02:22 · 1209 阅读 · 0 评论