
nlp
九指码农
生活不止眼前的苟且。
展开
-
spark mllib CountVectorizer源码解析
CountVectorizer和CountVectorizerModel旨在通过计数来将一个文档转换为向量。当不存在先验字典时,Countvectorizer可作为Estimator来提取词汇,并生成一个CountVectorizerModel。该模型产生文档关于词语的稀疏表示,其表示可以传递给其他算法如LDA。 在fitting过程中,countvectorizer将根据语料库中的词频排序从高到...原创 2019-08-20 10:47:14 · 638 阅读 · 0 评论 -
spark mllib HashingTF解析
在处理文本数据,尤其是自然语言处理的场景中,hashingTF使用的比较多;Mllib使用hashing trick实现词频。元素的特征应用一个hash`函数映射到一个索引(即词),通过这个索引计算词频。这个方法避免计算全局的词-索引映射,因为全局的词-索引映射在大规模语料中花费较大。但是,它会出现哈希冲突,这是因为不同的元素特征可能得到相同的哈希值。为了减少碰撞冲突,我们可以增加目标特征的维...原创 2019-08-19 20:49:56 · 5445 阅读 · 0 评论 -
那些年用过的时间衰减函数
在我们日常的应用中时间衰减函数无处不在,比如避免出现犹太反应(强者愈强,弱者愈弱)各种排行榜;通常我们希望某些指标如文章热度、电影评分随着时间的漂移越来越低或者随着时间的衰减出现一个系数能拟合这一过程,比较出名的就是牛顿冷却定律。一、刚开始接触时间衰减,是在使用elasticsearch的过程中对function_score函数的使用function_score支持的衰减函数有三种,分别是 l...原创 2019-07-17 21:07:06 · 23514 阅读 · 0 评论 -
文本自动摘要 -- textteaser
单文本摘要算法现在有很多 ,可以实现基于关键词的摘要方法,也有基于pagerank实现的textrank,也有textteaser 今天简单来介绍和实现textteaser摘要算法:统计指标:1)句子长度,长度为某个长度的句子为最理想的长度,依照距离这个长度的远近来打分。 2)句子位置,根据句子在全文中的位置,给出分数。(比如每段的第一句是核心句的比例大概是70%) 3)句子是否原创 2018-01-06 11:06:00 · 3632 阅读 · 0 评论 -
汉字转拼音 繁简转换 nlp-lang
项目中使用汉子转拼音,繁简体的相互转换繁简相互转换 String str = "點下面繁體字按鈕進行在線轉換" ; System.out.println(JianFan.f2j(str)); String str1 = "点下面繁体字按钮进行在线转换"; System.out.println(JianFan.j2f(str)```;结果:原创 2018-01-06 10:07:49 · 1501 阅读 · 0 评论 -
finger print 文本去重
任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint)。只要算法设计的好,任何两段信息的指纹都很难重复,就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中有着广泛的应用。我们这里的做法是文章抽取特征词,压缩为md5指纹。利用这些指纹进行hash去重。广泛应用在。搜索结果推荐结果去重。String content = "卓尔防线继续伤筋动原创 2018-01-06 09:46:22 · 1422 阅读 · 0 评论