TFIDF——python

本文介绍了TF-IDF算法在提取文章关键词中的作用,通过计算词频和逆文档频率确定关键词重要性。同时,讨论了如何使用TF-IDF和余弦相似性找出相似文章,以及在文章自动摘要中的应用,提出了基于关键词簇的摘要生成方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

提取关键词

现在有一篇长文《中国的蜜蜂养殖》,用计算机提取它的关键词。

1、词频:如果某个词很重要,它应该在这篇文章中多次出现。我们进行"词频"(Term Frequency,缩写为TF)统计。

2、停用词:结果你肯定猜到了,出现次数最多的词是----"的"、"是"、"在"----这一类最常用的词。它们叫做"停用词"(stop words),表示对找到结果毫无帮助、必须过滤掉的词。

3、IDF :最常见的词("的"、"是"、"在")给予最小的权重,

    较常见的词("中国")给予较小的权重,

    较少见的词("蜜蜂"、"养殖")给予较大的权重。

    这个权重叫做"逆文档频率"(Inverse Document Frequency,缩写为IDF),

    它的大小与一个词的常见程度成反比。 

4、TF-IDF:"词频"(TF)和"逆文档频率"(IDF)以后,两个值相乘,得到了一个词的TF-IDF值。

    某个词对文章的重要性越高,它的TF-IDF值就越大。

    所以,排在最前面的几个词,就是这篇文章的关键词。

 

如果某个词

### 中文TF-IDF中的停用处理 在中文自然语言处理中,停用的移除是一个重要的预处理步骤。停用通常是指那些频繁出现但对语义贡献较小的语,例如“的”、“是”、“在”等[^3]。这些语如果未被去除,则可能会影响后续基于 TF-IDF 的特征提取效果。 #### 停用的作用 停用的主要作用在于减少噪声数据的影响并提高模型性能。通过过滤掉高频低价值汇,可以更专注于具有实际意义的关键字。 #### 如何获取或构建中文停用表? 1. **现成资源** 可以利用已有的公开中文停用库来简化开发流程。一些常见的开源项目提供了标准化的中文停用列表,比如哈工大社会计算与信息检索研究中心发布的停用集合。 2. **自定义扩展** 针对自己特定领域的需求,还可以进一步扩充通用版本之外的内容。例如,在医疗健康类文本分析场景下,“症状”或者“治疗方案”这样的术语虽然重要但在其他行业可能是无意义干扰项;因此需根据具体应用场景调整优化个人专属版停止汇集。 #### 实际操作案例——Python实现过程 以下是使用 Python 结合 `sklearn` 库完成包含停用剔除功能的完整示例: ```python from sklearn.feature_extraction.text import TfidfVectorizer import jieba # 定义样本数据 corpus = [ '我喜欢学习人工智能', '机器学习让计算机能够自动改进经验' ] # 加载停用文件(假设路径为./chinese_stopwords.txt) with open('./chinese_stopwords.txt', encoding='utf8') as f: stopwords = set(f.read().splitlines()) def tokenize(text): """ 使用结巴分器进行切分 """ return list(jieba.cut(text)) vectorizer = TfidfVectorizer(tokenizer=tokenize, stop_words=stopwords) X = vectorizer.fit_transform(corpus) print(vectorizer.get_feature_names_out()) ``` 上述脚本展示了如何加载外部定义好的中文专用屏蔽清单,并将其应用于 Scikit-Learn 提供的标准接口之中以便于高效执行向量化转换任务的同时排除无关紧要的部分。 --- ### 注意事项 尽管引入停用机制有助于提升最终结果质量,但也需要注意过度依赖可能导致某些潜在有用的信息丢失风险。所以在设计阶段应当充分考虑目标群体特性以及业务背景等因素综合权衡利弊后再做决定。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值