
自然语言处理
ae5555
这个作者很懒,什么都没留下…
展开
-
Lucene/spellChecker拼写纠错
spellChecker是用来对用户输入的”检索内容”进行校正。Lucene的suggest包中包括了spellchecker。Lucene实现拼写检查的步骤1.建立spellchecker所需的索引文件spellchecker需要借助lucene的索引实现。PlainTextDictionary/** * 根据字典文件创建spellchecker所使用的索引。 * *原创 2015-10-18 23:41:34 · 1401 阅读 · 0 评论 -
语言模型/N-Gram模型
N-Gram马尔科夫假设:一个词的出现仅仅依赖于它前面出现的有限的一个或几个词。N-Gram模型用于中文,称为汉语语言模型CLM。该模型基于这样的假设,第n个词的出现只与前面N-1个词相关,而与其他任何词都不相关,整句话的概率就是各个词出现概率的乘积。这些词的概率可以通过直接从语料库中统计N个词同时出现的次数得到。假设语句T是由词序列W1,W2,W3,…Wn组成的,那么原创 2015-10-08 16:44:20 · 1296 阅读 · 0 评论 -
统计语言模型
语言模型是描述自然语言内在规律的数学模型。语言模型可分为传统的文法型语言模型和基于统计的语言模型。文法型语言模型的文法规则来源于语言学知识,但这种语言模型不能处理大规模真实文本。基于统计的语言模型通常是概率模型,借助统计语言模型的概率参数,可以估计出自然语言中每个句子出现的可能性,而不是简单判断该句子是否符合文法。常用的统计语言模型,有N元文法模型(N-gram)、隐马尔科夫模型(HMM)原创 2015-10-09 16:25:21 · 1194 阅读 · 0 评论 -
HMM隐马尔科夫模型
隐马尔可夫模型转移矩阵表示一个状态到另一个状态变化的可能性大小。转移矩阵在系统周期中是不变的。隐藏状态无法直接被观测,通过隐藏状态导致的显性结果来判别。通过混淆矩阵建立隐藏状态和观测结果之间的联系,混淆矩阵就是隐藏状态产生观测结果的概率。假设观测结果有M个,隐藏状态有N个,那么转移矩阵大小为N*N,混淆矩阵的 大小为N*M。隐藏状态的数目和观测结果的数目是可以不同的。原创 2015-10-12 23:03:53 · 1059 阅读 · 0 评论 -
NLP工具
bosonnlpfrom bosonnlp import BosonNLPimport datetimenlp=BosonNLP('BOSON_API_TOKEN')//中文时间转换result=nlp.convert_time("去年清明节")//语义联想,相关词suggest=nlp.suggest('数学',top_K=10)//关键词提取,有权重,权重平方和为1keyw原创 2016-03-19 22:42:53 · 818 阅读 · 0 评论 -
Word2Vec数学模型
N-gram模型N-gram模型假设一个词出现的概率只与它前面固定数目的词相关。一般而言,n的选取需要同时考虑计算复杂度和模型效果两个因素。 神经网络语言模型(1) 神经概率语言模型中假定了”相似的”词对应的词向量也是相似的。 (2) 概率函数关于词向量是光滑的,即词向量中的一个小变化对概率的影响也只是一个小变化。模型1.基于词向量的模型自带平滑化功能。 2.词向量是Distributed R原创 2016-03-20 13:13:00 · 513 阅读 · 0 评论