中文普通话语音转录解析:判别式重排序与协同训练的结合
1. 引言
解析的目标是解决结构歧义问题。当前最先进的统计解析器需要树库来估计其参数,但当训练树库与待解析数据在体裁/领域上不匹配时,其性能会下降。此外,为待解析数据创建高质量的特定体裁/领域树库既昂贵又困难。
在GALE项目下,除了新闻专线文本外,还有广播新闻(BN)、广播对话(BC)、新闻组(NG)和网络日志(WL)等新体裁。为这些体裁的中文数据生成高质量的解析树,对GALE内的各种任务都很有用,包括语法引导的翻译、汉英机器翻译(MT)的重排序模型、命名实体检测以及普通话BN和BC音频自动语音识别(ASR)的结构化语言建模。
判别式重排序显著提高了解析性能,而协同训练已被证明是一种有效的弱监督学习算法,可利用大量未标记的特定领域数据,从少量特定领域的种子标记语料库中引导解析器。接下来将系统研究判别式重排序和协同训练的结合,包括协同训练重排序解析器和协同训练重排序器。
2. 判别式重排序
采用基于RankBoost的判别式重排序方法,该方法最初由Collins和Koo为解析而开发。此方法允许研究各种特征对普通话解析性能的影响。重排序算法将中文解析器生成的候选列表作为输入,并根据一组特征对这些候选进行重新排序。
训练重排序器时,有n个句子,每个句子有ni个候选,以及解析器生成的对数概率。每个解析候选都有一个分数,用于衡量其与黄金参考的相似度,这里使用解析准确率作为相似度度量。
使用一组指示函数提取二进制特征,每个指示函数与一个实值权重参数相关联,此外还有一个与对数概率相关的权重参数。候选的排名函数定义为:
[ \alpha_0L(x_
超级会员免费看
订阅专栏 解锁全文
1030

被折叠的 条评论
为什么被折叠?



