
Machine Learning
文章平均质量分 80
qianwenhong
揭谛揭谛,波罗揭谛,波罗僧揭谛,菩提萨婆诃
展开
-
Stanford Word Segmenter使用
Stanford Word Segmenter是斯坦福大学NLP group研发的一套基于CRF的开源中文分词系统,采用CRF(Conditional Random Fields)算法。下面将下载Stangford Word Segmenter 软件包,在Eclipse上调试成功,并进一步分析源码。1,下载 Stanford Word Segmenter软件包;Do原创 2014-11-26 17:51:38 · 4542 阅读 · 0 评论 -
朴素贝叶斯模型(Naive Bayes Model,NB)理解
Bayes定理P(A,B)=P(A|B)P(B); P(A,B)=P(B|A)P(A); P(A|B)=P(B|A)P(A)/P(B); 贝叶斯定理变形原创 2014-11-24 14:18:37 · 9721 阅读 · 0 评论 -
最大熵模型(Maximum Entropy Model, ME)理解
信息论的创始人Shannon认为,“信息室zhire”原创 2014-11-25 12:24:54 · 18065 阅读 · 1 评论 -
隐马尔可夫模型 (Hidden Markov Model,HMM)理解
隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语音识别,自然语言处理以及生物信息等领域体现了很大的价值。到目前为止,它一直被认为是实现快速精确的语音识别系统的系统,自然语言处理过程的最成功的方法。原创 2014-11-26 10:49:10 · 11045 阅读 · 0 评论 -
中文分词软件包的使用
中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。下面原创 2014-12-10 14:09:15 · 12905 阅读 · 0 评论 -
R语言 tm包的使用
R语言 tm 文本挖掘原创 2014-12-10 16:22:03 · 8461 阅读 · 0 评论