最近在看一些关于主题模型和文本分类的论文,在这里和大家分享一下
首先呢,先搞清楚一件事情就是文本分类是干啥的;
文本分类就是计算机通过一定的规则,对文本进行分类(感觉像没说一样),这个类别一半是已经定义好的
实际应用里面,可以将电影或者产品的评论看作是文本,我们可以对其中的褒贬性进行分类,褒义和贬义就是两个类别,我们要做的就是训练一个分类器,当输入一个文本时,分类器就会为他贴上一个“褒义”或者“贬义”的标签
还有一个典型的文本分类应用就是:我们在检索一篇新闻的时候,我们还希望能够找到一些相关的文章,通过文本分类,就可以发现这些“相似的”文章
最早的文本分类是由专业人员进行人工分类,虽然分类的精度很高(可以接近100%),但是效率却十分低下;
所以嘛,就需要靠机器来解决效率的问题了
好了,历史我就不水了, 具体想要了解文本分类的历史可以看下面的这篇博文,讲得非常非常详细
在主题模型还没有盛行之前,也许最盛行的文本分类的方法就是基于向量空间模型的文本分类方法(vsm),首先来说一下向量空间模型吧
VSM很简单,就是首先扫描文档集,统计整个文档集的词汇表,假设词汇表的大小为|V|,那么每一篇文档就可以表示为|V|维空间中的向量;这里,忽略了词的顺序,只考虑词是否出现,以及出现的次数(这个向量也被称为文档的词频向量)
假设我现在有如下的文档集:
d1:Chinese like apples
d2:American like muscle car
d3:Fast and furious
d4:Japanese like music
我在预处理的时候,首先统计文档集中的词汇,得到如下的结果