
中文信息处理
文章平均质量分 73
fushengfei
这个作者很懒,什么都没留下…
展开
-
基于特定语料的HMM模型计算和Viterbi算法的实现
HMM,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数(后面要讨论到的Viterbi算法)。然后利用这些参数来作进一步的分析,例如模式识别。在中文信息处理方面,它主要用于词性标注,计算机并不知道一句话中某个词的具体词性,需要通过相应的模型和算法来使计算机能够识别出一句话中具体某个词的词性,那么模型就是某个HMM,算法就是在此模型上的Viterbi算法。...原创 2010-08-15 20:56:18 · 287 阅读 · 0 评论 -
ictclass java接口使用方法
使用的时候,最简单的方法是只需要把Data文件夹、Configure.xml,ictclas30.h,ICTCLAS30.lib,ICTCLAS30.dll和你的调用该接口的源文件放在同一个文件夹下面即可以。在调用文件中加入头文件include "ictclas30.h"及#pragma comment(lib,"ICTCLAS30.lib")。...原创 2011-10-04 22:06:46 · 313 阅读 · 0 评论 -
ICTCLAS的java接口的Bug
ICTCLAS的java接口中有这个方法: /** 对一串中文文本进行分词 */ public synchronized native String paragraphProcess(String sParagraph); 大多数情况下该方法可以对传入的文本进行分词操作,但是对于一些特殊字符会抛出异常,比如如下的字符: String str="[1][2][3][4...原创 2011-03-29 15:16:11 · 99 阅读 · 0 评论