
文本分析
宇毅
初级工程师一枚,一直以来都是看别人的技术博客学习,少走了不少弯路。受人恩惠颇多,而后也想回馈他人,所以把自己经历分享下,也希望我写的东西也能让他人有所收获。
展开
-
基于NLPIR的lucene 自定义Analyzer实现类
词法分析是lucene的一个模块,lucene自带的分词器(analyzer)一般效果不是很理想。现在项目中用的分词工具是北京理工大学的NLPIR,但是NLPIR没有一个现成的lucene分词器(analyzer)实现类。这里就需要自己来写一个比较简短的基于NLPIR的analyzer实现类。不同的Analyzer就是组合不同的Tokenizer和TokenFilter得到最后的TokenSt原创 2015-11-26 16:35:28 · 2527 阅读 · 1 评论 -
文本向量化
前言文本向量化,就是把文本转化为向量形式。这里用两种方式实现本文向量,一种是TF方式,一种是TF-IDF方式,且这里向量的长度就是字典的长度。TF就是词频、TF-IDF就是词频-逆频率。关于这两者的介绍已经满大街了,对于这两概念如有不懂,自行百度。本文基于python 实现,输入两篇短文本,输出文本向量,并用余弦相似度方式,计算两篇文档的相关性。原创 2017-06-09 01:50:26 · 7857 阅读 · 0 评论