
NLP
文章平均质量分 52
bigface1234fdfg
贴在地上过日子,有个好处就是,摔也摔不到哪儿去。
展开
-
什么是词干化处理
在NLP中,我们对一句话或一个文档分词之后,一般要进行词干化处理。词干化处理就是把一些名词的复数去掉,动词的不同时态去掉等等类似的处理。对于切词得到的英文单词要进行词干化处理,主要包括将名词的复数变为单数和将动词的其他形态变为基本形态。对动词的词干化可以使用 Porter 算法[5]。R语言很多包可以词干化,如snowball,Rstem等,但是它们的词干化是比较机原创 2014-09-27 17:16:03 · 7153 阅读 · 0 评论 -
Jieba分词包(二)——trie树和DAG
在Jieba分词包的源码中,有一个重要的分词函数——__cut_DAG(sentence),它里面涉及到了trie树和DAG有向无环图。在作者的说明文档中也指出了:基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)。所以说这篇博客我们就来说说Jieba里面的trie树和DAG图。原创 2014-11-26 16:51:43 · 8611 阅读 · 1 评论 -
Jieba分词包(一)——解析主函数cut
Jieba分词包——解析的Python源代码原创 2014-11-03 14:26:46 · 8913 阅读 · 0 评论 -
Jieba分词包(三)——基于词频最大切分组合
Jieba分词包(三)——基于词频最大切分组合 在前面,我们已经知道dict中所有的单词和词频信息已经存在了一个trie树中,并且需要分词的句子已经构建成了一个DAG图,构建的过程也运用了dict。那么这次我们来说如何基于每句话的DAG图,找到一个组合路径,使得该组合最合理(即打分最高)? 我们直接针对Jieba分词的源代码来解释,其中已经有了很多注释:原创 2014-12-10 16:10:02 · 4101 阅读 · 0 评论 -
PLSA模型的再理解以及源码分析
PLSA模型的再理解以及源码分析 之前写过一篇PLSA的博文,其中的收获就是知道PLSA是LSA在概率层面的扩展,知道了PLSA是一种主题模型,知道了PLSA中的参数估计使用的是EM算法。当时我就认为,这样子经典好用的算法,我是会回头再来理解它的,这样子才会有更加深刻的心得。所以有了这篇PLSA模型的再理解。1. 两种思路解PLSA模型 参考了很多原创 2015-01-30 17:48:58 · 4923 阅读 · 2 评论 -
百度词条中的链接结果不匹配问题
百度词条中的链接结果不匹配问题 百度词条中经常会出现一些不匹配的问题,这次又发现了一种:一个词条中有些词是包含链接的,百度用蓝色标注出来了,但是当我们点击连接进去的时候,又发现结果一点儿都相关,这就出现了不匹配的现象。 我们举例:我们在百度百科搜索词条“面向对象程序设计及C++”,这是一本C++的教程,百度词条的搜索结果是:原创 2015-01-12 09:29:47 · 1384 阅读 · 0 评论 -
Probability Latent Semantic Analysis (PLSA) 模型 学习笔记
PLSA是前面LSA的兄弟版,相比于LSA而言,PLSA定义了概率模型,而且每个变量以及相应的概率分布和条件概率分布都有明确的物理解释了。这篇博文我们分三部分来说PLSA:基本思想,EM算法推导,以及优缺点分析。原创 2014-12-04 10:00:09 · 10066 阅读 · 0 评论 -
Latent Semantic Analysis (LSA) 模型 学习笔记
Latent Semantic Analysis 模型,隐性语义分析,也就是我们常说的LSA模型。后面还有他的兄弟PLSA和LDA模型,这个我们后面再说。这几个都是NLP中比较经典的模型!学习这个模型,主要总结到了三个方面:LSA模型可以应用在哪儿?LSA的理论部分,以及LSA的优缺点分析。原创 2014-12-03 13:57:34 · 6496 阅读 · 0 评论 -
Jieba分词包解析系列
Jieba分词包解析系列原创 2014-11-03 15:07:01 · 1327 阅读 · 0 评论 -
NLP分析技术的三个层面
NLP分析技术大致分为三个层面:词法分析、句法分析和语义分析。原创 2014-11-26 09:21:00 · 10082 阅读 · 0 评论 -
短文本聚类方法
短文本聚类方法原创 2014-10-15 09:54:51 · 20942 阅读 · 0 评论 -
入门句法分析
FudanNLP 提供了依存句法分析功能。对应的类为 edu.fudan.nlp.parser.dep.JointParser。FudanNLP 的依存关系类型包括:核心词、主语、补语、宾语、定语、状语、并列、同位语、数量、介宾、连动、疑问连动、兼语、关联、重复、标点、的字结构、地字结构、得字结构、语气、时态等。每个句子都拥有一个有组织的完整的内在结构,其基本构成成分为句子中的词,和词与词之间原创 2014-10-14 15:21:53 · 1710 阅读 · 0 评论 -
TF-IDF算法及其编程实现
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果原创 2014-11-15 10:08:32 · 13258 阅读 · 7 评论 -
使用FudanNLP实现依存句法分析
依存句法分析在自然语言处理NLP中是比较重要的一项技术,FudanNLP工具箱中提供了一种依存句法分析的实现。这篇文章我们来试着使用FudanNLP实现依存句法分析,并看看分析的效果是什么样的形式,以及效果如何。 首先,我们下载了FudanNLP的工具箱源码(开源),依存句法分析的主代码就在example文件夹中的DepParse.java中。 这个程序中支持的原创 2015-03-09 14:14:49 · 6966 阅读 · 0 评论