39、基于潜在语义分析的快速无监督主题自适应方法

基于潜在语义分析的快速无监督主题自适应方法

1 引言

主题自适应对于自动语音识别(ASR)和统计机器翻译(SMT)至关重要,它能将更高级的上下文信息有效融入背景模型,从而提升性能。潜在语义分析(LSA)是一种以无监督方式对主题信息进行建模的有效方法。传统的潜在语义分析基于奇异值分解,而现代方法则基于概率建模,如概率潜在语义分析(pLSA)和潜在狄利克雷分配(LDA)。LDA在ASR领域引起了广泛关注,特别是在语言模型自适应方面。

本文提出了一个基于LDA的统一主题自适应框架,适用于单语和跨语言自适应。对于单语建模,我们进行了多方面的扩展:将LDA推广为潜在狄利克雷树分配(Latent Dirichlet - Tree Allocation)以建模主题相关性;将潜在狄利克雷树分配扩展到N - 元语法版本,以放宽LDA中“词袋”假设;提出分数Kneser - Ney平滑方法来处理分数计数;推导了变分期望最大化(EM)算法以实现大数据集上的高效模型训练。对于跨语言建模,我们提出了双语LSA方法,允许使用一种语言的源文本对另一种语言的模型进行自适应。

2 潜在语义分析

潜在语义分析的目标是以无监督方式找到一组潜在模式来描述数据集,其思想类似于降维,如主成分分析。潜在语义索引(LSI)是一种传统的向量空间方法,通过对文档语料的词 - 文档矩阵应用奇异值分解(SVD)来实现LSA。然而,向量空间方法难以融入先验知识,而概率建模是融入先验知识的一种有效方式,例如LDA用于潜在语义分析。

2.1 潜在狄利克雷分配(LDA)

LDA与基于SVD的方法的一个显著区别是在主题分布θ上使用了狄利克雷先验。文档生成过程如下:
1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值