文本分类中的主题模型

本文探讨了主题模型在文本分类中的作用,介绍了向量空间模型的缺陷,并阐述了Unigram Model、Mixture of Unigram和pLSA、LDA等主题模型的工作原理。通过这些模型,可以更好地处理文本的语义信息,尤其是同义词问题,提高文本分类的准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近在看一些关于主题模型和文本分类的论文,在这里和大家分享一下

首先呢,先搞清楚一件事情就是文本分类是干啥的;

文本分类就是计算机通过一定的规则,对文本进行分类(感觉像没说一样),这个类别一半是已经定义好的

实际应用里面,可以将电影或者产品的评论看作是文本,我们可以对其中的褒贬性进行分类,褒义和贬义就是两个类别,我们要做的就是训练一个分类器,当输入一个文本时,分类器就会为他贴上一个“褒义”或者“贬义”的标签

还有一个典型的文本分类应用就是:我们在检索一篇新闻的时候,我们还希望能够找到一些相关的文章,通过文本分类,就可以发现这些“相似的”文章

最早的文本分类是由专业人员进行人工分类,虽然分类的精度很高(可以接近100%),但是效率却十分低下;

所以嘛,就需要靠机器来解决效率的问题了

好了,历史我就不水了, 具体想要了解文本分类的历史可以看下面的这篇博文,讲得非常非常详细

文本分类概述

在主题模型还没有盛行之前,也许最盛行的文本分类的方法就是基于向量空间模型的文本分类方法(vsm),首先来说一下向量空间模型吧

VSM很简单,就是首先扫描文档集,统计整个文档集的词汇表,假设词汇表的大小为|V|,那么每一篇文档就可以表示为|V|维空间中的向量;这里,忽略了词的顺序,只考虑词是否出现,以及出现的次数(这个向量也被称为文档的词频向量)

假设我现在有如下的文档集:

d1:Chinese like apples
d2:American like muscle car
d3:Fast and furious
d4:Japanese like music
我在预处理的时候,首先统计文档集中的词汇,得到如下的结果

                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值