TF-IDF提取关键词并用余弦算法计算相似度

TF-IDF算法是关键词提取的一种简单有效方法,通过计算词频和逆文档频率来确定词语的重要性。为了避免常用词占据过多权重,引入了IDF。余弦相似度用于衡量文档之间的相似性,通过计算向量夹角的余弦值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

TF-IDF算法是一个很易懂的关键词提取算法,算法易实现,易懂且易操作,缺陷是将词频作为唯一考虑因素,且对于位置没有敏感性,位置的问题可以通过人为添加权重的方式改善,比如给第一段最后一段,或者每一段的第一句话加高权重。。。(类似于总分,总分总啥的文本结构吧)


TF-IDF算法简单描述:

TF是Term Frequency的缩写,即单纯的计算词频,比如,两句话分别是“我最喜欢吃我做的土豆”,“我最喜欢海”,因为是简介,就不讲究完备性,不将这句话分词,只考虑每个字,那么,第一句话中,“我”出现了两次,其他的字各出现了一次,第二句中,所有的字都出现了一次,那么计算TF的时候,只用将每个字的出现次数除以总字数即可:

TF = 文章中出现次数/文章总词数

【我:0.2,最:0.1,:0.1,:0.1,:0.1,:0.1,:0.1,:0.1,:0.1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值