NLP
文章平均质量分 77
自然语言处理
2011妖儿
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
TFIDF算法原理
概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作转载 2017-03-17 22:18:39 · 1127 阅读 · 0 评论 -
BM25算法
BM25算法 BM25是二元独立模型的扩展,其得分函数有很多形式,最普通的形式如下: ∑ 其中,k1,k2,K均为经验设置的参数,fi是词项在文档中的频率,qfi是词项在查询中的频率。 K1通常为1.2,通常为0-1000 K的形式较为复杂 K= 上式中,dl表示文档的长度,avdl表示文档的平均长度,b通常取0.转载 2017-03-17 22:14:50 · 526 阅读 · 0 评论
分享