
中文分词
bingby
这个作者很懒,什么都没留下…
展开
-
ansi与unicode
ansi和unicode为字符编码的不同标准,ansi采用单字节表示一个字符,但无法满足中文、日文等其他字符,后来出现了unicode编码标准。ansi的实现方式:一字节的大小小于128时,其字符的值即对应ascii码的值。一字节的大小大于128时,该字节和下一下字节满足gb2312编码(或BIG5、JIS)的编码规则。unicode的实现方式:两个字节表示一个字符,所以最多可原创 2009-09-10 21:06:00 · 603 阅读 · 0 评论 -
基于特定语料的HMM模型计算和Viterbi算法的实现
HMM,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数(后面要讨论到的Viterbi算法)。然后利用这些参数来作进一步的分析,例如模式识别。在中文信息处理方面,它主要用于词性标注,计算机并不知道一句话中某个词的具体词性,需要通过相应的模型和算法来使计算机能够识别出一句话中具体某个词的词性,那么模型就是某个HMM,算法就是在此模型上的Viterbi算法。 我的工作是以北大1998年1月份的语料为基础,求出此HMM,然后在这个HMM的基础之上设计Vi转载 2010-08-24 18:21:00 · 1134 阅读 · 0 评论