one-hot&TF&TF-IDF

本文介绍了TF-IDF算法的基本概念及应用,详细解释了如何通过TF-IDF算法量化文本中单词的重要性,包括矩阵A的构建方式、one-hot矩阵、TF矩阵和TF-IDF矩阵的具体计算方法,并探讨了IDF值和TF-IDF值的意义。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

矩阵A(m x n)的含义:

m:文章数

n:单词数

A[i][j]=2代表在文章i里单词j出现了2次。

one-hot矩阵:矩阵中,用1代表该单词在该文章中存在,用0表示不存在。

TF矩阵:在每一行上,向量的每一个值标志对应的词语出现次数归一化后的频率。比如:

TF-IDF矩阵:

首先计算IDF向量

文章总数为m,对于某个单词,统计出它在j篇文章中出现过,则IDFj=log(m/(1+j)),之所以在分母中加1是为了防止某些没有出现过的单词,使得分母为0的情况。

然后在TF矩阵中,每一个元素赋值为:

tfidf[i][j]=tf[i][j]*idf[j],例如:

 IDF  数值有什么含义?TF-IDF  数值有什么含义?
当某个词在语料库中各个文档出现的次数越多,它的 IDF 值越低,当它在所有文档中都出
现时,其 IDF 计算结果为 0,而通常这些出现次数非常多的词或字为“的”、“我”、“吗”
等,它对文章的权重计算起不到一定的作用。tfidfi,j 表示词频 tfi,j 和倒文本词频 idfi 的乘
积,TF-IDF 值越大,说明这个单词唯独在该文章中出现次数很多,而在其他文章中基本不出现,则表示该特征词对这个文本的重要性越大。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值