每个人的音高和音能是不一样的,说不定这个就会进入到speaker embedding中,这是否会造成影响?
个性化,就是说话人的音色,个性化模型可以通过说话人分类任务进行预训练
风格化,例如方言吧,风格化模型通常是与重构任务一起进行训练。
然而说话人分类任务也存在一定的局限性,提取的Speaker Embedding 或多或少会包含有风格信息,这会一定程度上造成解纠缠的混乱,对风格化以及个性化的效果造成影响。
不同方言对说话人特征也是有影响的,这个就要注意训练集的相同。
中文有多音字的问题,这个是第三个问题。这个用pypinyin解决。
feedback约束,
预测生成的Mel谱再输入到speaker encoder(别人做的)中生成预测语音的Speaker Embedding,
该Speaker Embedding与原始语音的Speaker Embedding(就是之前的)进行相似度比较,并加入到loss中去。
但这个就不是我做的了。
这几个问题。。。貌似都是行业问题啊。。。
自己做一个embedding。
做不了做不了,只能说
我们应该搞定这个约束反馈。。。在我看来,这个损失函数就像是一个单独的。。。
1万+

被折叠的 条评论
为什么被折叠?



