注意:特征提取和特征选择时不同的概念。
TF-IDF
介绍:TF-IDF是文本分析中一种经典的加权技术,通过结合词频(TF)和逆文档频率(IDF)来评估词语在文档中的重要性。
核心内容:
词频(TF)表示词语在文档中的出现频率,计算公式:TF(t,d)=词语d在文档d中出现的次数/文档的总词数。示例:若“编程”在文档中出现了3次,文档总词数为30,则TF为0.1。
逆文档频率(IDF)衡量词语的普遍程度,公式:IDF(t)=log(文档总数/包含词语t的文档数+1)示例:若语料库有1000篇文档,其中10篇包含“编程”,则IDF为log(1000/11)≈2.0。
TF-IDF值
综合TF与IDF,公式:TF-IDF(t,d)=TF(t,d)×IDF(t)。意义:值越高,词语对文档的区分度越大。
优点:1、结果直观,可解释性强。
缺点:1、高频词可能掩盖重要但低频的词。
2、忽略词序和语义信息(如“苹果”公司 vs. 水果),即有的词语有多重意思,而tf-idf没有考虑的相同词语有着不同的含义,它将长的一样的词语认为是完全相同的,它忽略的上下文的语义。