1,生成模型:假设数据是由某种模型生成的。对于文本分类,假设有N类数据,每一类数据的都有一个概率,每一类数据的各个词项都会有一个分布。一篇文档就是由这个数据模型生成的。生成过程如下:首先随机选择一个类别,由于是随机选择,大类被选中的可能性更大;其次在这个类别中一个个随机选择词语,由于各个类别的词项分布不同,生成的文档的词项分布更接近于生成文档的模型。可以计算文档与各个模型的余弦相似度,得分最大的模型即是生成模型。贝叶斯是另外一种算法,朴素贝叶斯添加了条件独立性的假设,分布对文档中的每一个词项计算,P(C|d)=P(d|C)*P(C)/P(d),其中P(d)为公共因子,可以略去,P(C)为先验概率,P(d|C)为样本中学习出来的词项分布,可以由词项推断出文档属于各个类别的概率,各个词项之间独立,相乘,归一化,即可以得到文档属于个各类的的概率。
2,判别模型:不会利用到各个类别的先验概率,而是学习到一个分类函数,通过函数来精确确定文档属于哪个类。判别模型不需要概率论的知识,支持向量机为常见的判别模型。
3,非参数模型:前面的两种模型最终都要学习到一些参数,非参数模型不需要学习参数,完全根据数据判断。典型的是最近邻方法。非参数其实也是一种参数方法,它的参数是各个出现的样本,非参数没有做规约,它的参数有很多冗余,尽管训练速度很快(最近邻就不需要训练),但是由于参数很多,分类过程很慢。搜索引擎中的向量空间模型应该就属于非参数模型,它不需要训练,每一个文档(相当于样本)都是一个类,每一个文档都要参与到计算中。
随着数据规模的增大,3,1,2方法增加的效果递减。假设数据无穷多,非参数模型可以达到最好效果,当然时间也最长了(对于最近邻是无穷长)。