TF-IDF提取行业关键词

本文介绍了TF-IDF的概念,它是信息检索中衡量关键词重要性的指标。通过TF-IDF可以提取具有领域特定性的关键词,例如在IT行业中,Java、Python和机器学习等。文章讲述了如何应用TF-IDF模型到实际的关键词抽取任务中,包括数据处理、模型建立和过滤常见词的策略,并提供了代码实现的简要说明。

1. TF-IDF简介

TF-IDF(Term Frequency/Inverse Document Frequency)是信息检索领域非常重要的搜索词重要性度量;用以衡量一个关键词\(w\)对于查询(Query,可看作文档)所能提供的信息。词频(Term Frequency, TF)表示关键词\(w\)在文档\(D_i\)中出现的频率:

\[TF_{w,D_i}= \frac {count(w)} {\left| D_i \right|} \]

其中,\(count(w)\)为关键词\(w\)的出现次数,\(\left| D_i \right|\)为文档\(D_i\)中所有词的数量。逆文档频率(Inverse Document Frequency, IDF)反映关键词的普遍程度——当一个词越普遍(即有大量文档包含这个词)时,其IDF值越低;反之,则IDF值越高。IDF定义如下:

\[IDF_w=\log \frac {N}{\sum_{i=1}^N I(w,D_i)} \]

其中,\(N\)为所有的文档总数,\(I(w,D_i)\)表示文档\(D_i\)是否包含关键词,若包含则为1,若不包含则为0。若词\(w\)在所有文档中均未出现,则IDF公式中的分母为0;因此需要对IDF做平滑(smooth):

\[IDF_w=\log \frac {N}{1+\sum_{i=1}^N I(w,D_i)} \]

关键词\(w\

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

浅唱书令

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值