文本挖掘

本文探讨了序列分类方法中常用的隐马尔科夫模型,并详细解释了如何利用k-means聚类算法来解决未知主题类别的状态观察值似然问题。此外,还介绍了判别性局部分类方法与判别性序列分类方法的区别及其应用。

生成序列分类方法

主题与句子的分割中最常使用的是隐马尔科夫模型。对于主题分割来说,一般使用n个状态而不是两个状态,这里n是主题的数目,但是,在不知道主题类别的情况下获得状态观察值似然是一个很大的挑战。状态观察值似然采用k-means聚类算法来训练。

判别性局部分类方法

判别性分类器的目标是直接对HMM式中的P(yi|xi)进行建模。如果在朴素贝叶斯中生成模型方法,但是在判别方法中,用特征空间的判别函数来定义模型。在判别性局部分类方法中,每个边界通过使用局部特征与上下文特征进行单独处理。与序列分类模型不同的是,判别性局部分类方法没有进行全局(即句子或者文档级)优化,但是一些与更大的上下文有关的特征可以纳入特征集合中。对于句子分割来说,应用于报纸文章的主要是有监督学习方法。

判别性序列分类方法

判别性序列分类方法是局部判别性模型的一般扩展,它拥有额外的解码阶段,能够通过使用相邻决策的信息来决定最佳的标记,进而标记该实例。最大边界的马尔科夫网络是HMM的扩展

CKY算法


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值