参考:
http://www.codeceo.com/article/tf-idf.html
http://mp.weixin.qq.com/s?__biz=MjM5MDEzNDAyNQ==&mid=2650313710&idx=1&sn=29897190500a55bdbc56daf9ddb22a35&chksm=be4549888932c09ee1e9596ae4ca1fab4e7212d01aad158b77f5b06c88c6ea6263a22414df9e&mpshare=1&scene=1&srcid=0318lBdwcWBf4d46mPdfO8Fe#rd
1.TF-IDF原理
TF-IDF(Term Frequency-Inverse Document Frequency),中文叫做词频-逆文档频率。在文本挖掘(Text Mining)和信息检索(Information Retrieval)领域具有广泛的应用。TF-IDF通过计算每个词的TF-IDF值,筛选出每个文档中最关键一些词。
那么问题来了,TF-IDF是怎么定义“关键”?作为一个文档中的关键词,我想应该同时满足如下2个特征:

TF-IDF是一种用于信息检索和文本挖掘的常用技术,它通过结合词频(TF)和逆文档频率(IDF)来确定词汇的重要性。TF-IDF值越高,词在文档中的重要性越显著。TF考虑了词在文档内的出现次数,而IDF则反映了词在语料库中的独特性。TF-IDF结合了词的存在感和唯一性,是衡量关键词的关键指标。
最低0.47元/天 解锁文章
853

被折叠的 条评论
为什么被折叠?



