
中文信息处理
聚沙塔
这个作者很懒,什么都没留下…
展开
-
Base64编码与解码
Base64是一种将二进制转为可打印字符的编码方法,主要用于邮件传输。Base64就是将64个字符(A-Z,a-z,0-9,+,/)作为基本字符集, 把所有符号转换为这个字符集中的字符。为了将机内码转换为Base64编码,首先建立一个Base64码表(如下图),每次从输入流中取6bit, 将此6bit作为下标查找Base64码表,输入对应字符。这样,没3字节机内码被转换为4字节的Base64编原创 2014-11-03 21:58:52 · 1860 阅读 · 0 评论 -
基于点阵字库的汉字显示
使用字库HZK16,该字库是符合GB2312标准的16×16点阵字库,存储每个汉字需要32字节(16*16/8=32字节)。HZK16中的一个汉字的偏移地址计算公式(假设机内码为ABCD):offset=[(AB-0XA1)*94+(CD-0XA1)]*32 证明: GB2312编码对所收录字符进行了分区处理,共94区,每区含有94位,这种表示方式也称为区位码。如“啊"位于16区的01位,所以原创 2015-01-15 14:08:26 · 2665 阅读 · 0 评论 -
汉语自动分词
调用“海量智能分词”提供的动态链接库,实现汉语自动分词,并且搭建图形界面用于操作和显示。 首先下载“海量智能分词”软件,解压后拷出include文件夹下的HLSegFunc.h、HLPubDef.h和dll&lib文件夹下的HLSSplit.dll、HLSplitWord.dat、HLSSplit.lib。 图形界面使用MFC搭建,新建基于对话框的MFC应用程序,同时要将HLSSplit.li原创 2014-12-30 10:37:39 · 1269 阅读 · 0 评论