深度/机器学习基础知识要点:TFIDF、LDA、LSA

本文深入探讨了TF-IDF、LDA和LSA三种文本分析算法,详细介绍了它们的原理和计算公式。TF-IDF用于衡量词在文档中的重要性,LDA是一种主题模型,能识别文档集中的潜在主题,而LSA则通过向量表示词和文档,捕捉它们之间的潜在语义关系。

TFIDF

  • TF
    Term Frequency,即词频,它表示一个词在文档中出现的次数。

    计算公式:

    TF=某个词在文档中出现的次数文档的总词数TF = \frac{某个词在文档中出现的次数}{文档的总词数}TF

    某个词出现越多,表示它约重要。
    某个词越少见,就越能表达一篇文章的特性,反之则越不能。

  • IDF

    Inverse Document Frequency,即逆文档频率,它是一个表达词语重要性的指标。

    计算公式:

    IDF=log(语料库中的文档数包含该词的文档数+1) IDF=log( \frac{语料库中的文档数}{包含该词的文档数+1}) IDFlog(+1)

    如果所有文章都包涵某个词,该词的IDF=log(1)=0IDF=log(1)=0IDFlog(1)=0,即重要性为零。停用词的IDF约等于0。

    如果某个词只在很少的文章中出现,则IDF很大,其重要性也越高。

  • TF-IDF

    计算公式:

    TFTFTF-IDFIDFIDF =TF×IDF= TF × IDFTF×IDF

    如果某个词在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词具有很好的类别区分能力

LDA

  • LDA定义
    LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。

    所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。

    文档到主题服从多项式分布,主题到词服从多项式分布。

    LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。

  • LDA生成过程

    对于语料库中的每篇文档,LDA定义了如下生成过程:
    1.对每一篇文档,从主题分布中抽取一个主题;
    2.从上述被抽到的主题所对应的单词分布中抽取一个单词;
    3.重复上述过程直至遍历文档中的每一个单词。

  • LDA整体流程

    定义:文档集合D,主题(topic)集合T
    D中每个文档d看作一个单词序列<w1,w2,...,wn><w1,w2,...,wn>

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

szZack

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值