特征提取介绍

注意:特征提取和特征选择时不同的概念。

TF-IDF

介绍:TF-IDF是文本分析中一种经典的加权技术,通过结合词频(TF)和逆文档频率(IDF)来评估词语在文档中的重要性。

核心内容:

词频(TF)表示词语在文档中的出现频率,计算公式:TF(t,d)=词语d在文档d中出现的次数/文档的总词数。示例:若“编程”在文档中出现了3次,文档总词数为30,则TF为0.1。

逆文档频率(IDF)衡量词语的普遍程度,公式:IDF(t)=log(文档总数/包含词语t的文档数+1​)示例:若语料库有1000篇文档,其中10篇包含“编程”,则IDF为log(1000/11)≈2.0。

TF-IDF值
综合TF与IDF,公式:TF-IDF(t,d)=TF(t,d)×IDF(t)。意义:值越高,词语对文档的区分度越大。

优点:1、结果直观,可解释性强。

缺点:1、高频词可能掩盖重要但低频的词。

2、忽略词序和语义信息(如“苹果”公司 vs. 水果),即有的词语有多重意思,而tf-idf没有考虑的相同词语有着不同的含义,它将长的一样的词语认为是完全相同的,它忽略的上下文的语义。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值