基于条件随机场的中文TTS韵律短语边界半监督学习预测
1. 引言
在连续语音中,母语者倾向于将单词组合成韵律短语,其边界由时长和语调线索标记,许多语音规则也仅在这些短语内起作用。韵律短语边界的准确预测直接影响文本转语音(TTS)系统的自然度和正确性。
目前,针对该问题已有多种研究并提出了一些有效方法。传统的中文韵律短语切分方法基于手工规则,虽易于解释,但获取大量琐碎规则耗时。近年来,统计方法取得了良好效果,如基于CART、HMM和最大熵(ME)模型的方法。然而,高精度和高召回率的自动预测需要大量人工标注数据,成本高昂,而未标注数据相对容易收集,但利用方式有限。
半监督学习通过结合大量未标注数据和少量标注数据构建更好的分类器来解决这一问题。自训练是半监督学习常用技术,先使用少量标注数据训练基础分类器,再用其对未标注数据分类,选择高置信度数据更新标注训练集,重复此过程直至所有未标注数据被纳入训练集或达到最大迭代次数。
条件随机场(CRFs)是一种基于无向图模型的判别式方法,在序列标注学习任务中表现出色。本文研究以CRFs为基础分类器的自训练性能,利用少量手动标注数据和大量无监督方式获得的派生标签数据学习更好的CRFs模型。
2. 条件随机场(CRFs)
条件随机场是用于计算指定输出节点值在给定指定输入节点值条件下的条件概率的无向图模型。它放宽了隐马尔可夫模型(HMM)的强独立性假设,克服了最大熵马尔可夫模型(MEMM)的标签偏差问题,能为整个标签序列指定一个联合概率分布。
设 $X = [x_1… x_T]$ 为观测输入数据序列,$Y = [y_1… y_T]$ 为有限状态机(FSM)状态集,线性链C
超级会员免费看
订阅专栏 解锁全文
88

被折叠的 条评论
为什么被折叠?



