51、基于条件随机场的中文TTS韵律短语边界半监督学习预测

基于条件随机场的中文TTS韵律短语边界半监督学习预测

1. 引言

在连续语音中,母语者倾向于将单词组合成韵律短语,其边界由时长和语调线索标记,许多语音规则也仅在这些短语内起作用。韵律短语边界的准确预测直接影响文本转语音(TTS)系统的自然度和正确性。

目前,针对该问题已有多种研究并提出了一些有效方法。传统的中文韵律短语切分方法基于手工规则,虽易于解释,但获取大量琐碎规则耗时。近年来,统计方法取得了良好效果,如基于CART、HMM和最大熵(ME)模型的方法。然而,高精度和高召回率的自动预测需要大量人工标注数据,成本高昂,而未标注数据相对容易收集,但利用方式有限。

半监督学习通过结合大量未标注数据和少量标注数据构建更好的分类器来解决这一问题。自训练是半监督学习常用技术,先使用少量标注数据训练基础分类器,再用其对未标注数据分类,选择高置信度数据更新标注训练集,重复此过程直至所有未标注数据被纳入训练集或达到最大迭代次数。

条件随机场(CRFs)是一种基于无向图模型的判别式方法,在序列标注学习任务中表现出色。本文研究以CRFs为基础分类器的自训练性能,利用少量手动标注数据和大量无监督方式获得的派生标签数据学习更好的CRFs模型。

2. 条件随机场(CRFs)

条件随机场是用于计算指定输出节点值在给定指定输入节点值条件下的条件概率的无向图模型。它放宽了隐马尔可夫模型(HMM)的强独立性假设,克服了最大熵马尔可夫模型(MEMM)的标签偏差问题,能为整个标签序列指定一个联合概率分布。

设 $X = [x_1… x_T]$ 为观测输入数据序列,$Y = [y_1… y_T]$ 为有限状态机(FSM)状态集,线性链C

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值