生成序列分类方法
主题与句子的分割中最常使用的是隐马尔科夫模型。对于主题分割来说,一般使用n个状态而不是两个状态,这里n是主题的数目,但是,在不知道主题类别的情况下获得状态观察值似然是一个很大的挑战。状态观察值似然采用k-means聚类算法来训练。
判别性局部分类方法
判别性分类器的目标是直接对HMM式中的P(yi|xi)进行建模。如果在朴素贝叶斯中生成模型方法,但是在判别方法中,用特征空间的判别函数来定义模型。在判别性局部分类方法中,每个边界通过使用局部特征与上下文特征进行单独处理。与序列分类模型不同的是,判别性局部分类方法没有进行全局(即句子或者文档级)优化,但是一些与更大的上下文有关的特征可以纳入特征集合中。对于句子分割来说,应用于报纸文章的主要是有监督学习方法。
判别性序列分类方法
判别性序列分类方法是局部判别性模型的一般扩展,它拥有额外的解码阶段,能够通过使用相邻决策的信息来决定最佳的标记,进而标记该实例。最大边界的马尔科夫网络是HMM的扩展
CKY算法