TF-IDF
文章平均质量分 94
TF-IDF
赴335
认真学习中
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习 TF-IDF提取关键词,从原理到实践的文本特征提取利器
TF-IDF用于从文章中提取核心关键词,由两部分组成:TF(词频)和IDF(逆文档频率)。TF(词频):某个词在文章中出现的次数除以文章总词数。例如,若“人工智能”在1000词的文章中出现50次,其TF值为0.05。IDF(逆文档频率):衡量词的区分能力,公式为log(语料库文档总数 / 包含该词的文档数 + 1)。若某词在语料库中罕见,其IDF值较高。TF-IDF 值就是词频与逆文档频率的乘积,即 TF - IDF = TF×IDF。原创 2025-08-11 20:36:47 · 1491 阅读 · 1 评论 -
TF-IDF 红楼梦关键词提取
使用for循环一行一行的遍历文件内容,在没有遇到章节标题前读取的每一行内容都会写入创建的红楼梦需要注意 介绍文件中,然后遇到标题像‘上卷 第一回.....’我们就以该章节名作为文件名新创建一个文件,然后将后面的内容写入该文件中,如果读取到了下一章‘上卷 第二回...’则继续重新创建该章节的文件,反复此流程,直至将120章内容读完。在对文件名列表进行遍历,通过os.path.join方法获得每个文件的地址,再通过这个地址打开文件获取每个文件的内容,分别写入一个列表中储存起来。再创建一个分词后汇总的文件。原创 2025-08-12 21:11:32 · 1171 阅读 · 0 评论
分享