
自然语言处理
phasorhand
不可分享的知识皆为伪
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
相关性算法BM25的python实现
计算原理第一项c(w,q)就是搜索q中词w的词频第三项是词w的逆文档频率,M是所有文本的个数,df(w)是出现词w的文本个数中间的第二项是关键,实质是词w的TF值的变换,c(w,d)是词w在文本d中的词频。首先是一个TF Transformation,目的是防止某个词的词频过大,经过下图中公式的约束,词频的上限为k+1,不会无限制的增长。例如,一个词在文本中的词频无论是50还是100,都...原创 2020-03-06 09:22:44 · 9451 阅读 · 1 评论 -
HanLP
一. 下载与配置(使用python可跳过)下载jar和配置文件下载data.zip解压并通过配置文件告诉HanLP数据包的位置(方法:修改配置文件的第一行为数据包的父目录)。HanLP中的数据分为词典和模型,其中词典是词法分析必需的,模型是句法分析必需的。用户可以自行增删替换,如果不需要句法分析等功能的话,随时可以删除model文件夹。模型跟词典没有绝对的区别,隐马模型被做成人人...原创 2018-12-07 12:17:56 · 3344 阅读 · 0 评论