2021-07-02

TF-IDF算法在关键词提取中的应用与分析
本文探讨了选择TF-IDF算法的原因,包括其常见性、实现简易、基于词频的特点以及计算效率。尽管TF-IDF存在忽略词序、依赖停用词库和可能提取非关键生僻词的不足,但在无监督学习的关键词提取中仍表现出实用性。由于缺乏有监督学习所需的完整语料库,作者认为TF-IDF是合适的选择。

我选择TF-IDF算法的原因是:1.它的常用性,这是一个我们日常上网时就常见的算法,说明这个本身实用性高。
2.这个算法本身实现起来并不算太过困难,对于我这种python编程基础薄弱的人来说正合适。
3.这是一个基于词频的关键词提取算法,与组内其他同学的算法不重叠。
4.这个算法重复计算时计算量小,能迅速提供结果。
当然它也有很多的不足之处,比如说没有考虑位置对关键词权值的影响,对停用词库的需求较高,且很容易提取出不太关键的生僻词。
不过这个算法在无监督学习的关键词提取算法中已经算是十分实用的了,而有监督学习的算法需要有各种完整标识词性等属性的语料库,这是我们无法提供的,所以我选择了TF-IDF算法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值