
情感提取
文章平均质量分 80
suskil
这个作者很懒,什么都没留下…
展开
-
CALM:用于富有表现力的文本到语音合成的对比跨模态说话风格建模
为了进一步改善合成语音的说话风格,当前的文本到语音(TTS)合成系统通常使用参考语音来风格化其输出,而不仅仅是输入文本。这些参考语音是通过耗费资源的人工选择获得的,或者是通过语义特征选择的。然而,语义特征不仅包含与风格相关的信息,还包含与风格无关的信息。文本中与说话风格无关的信息可能会干扰参考音频选择并导致不正确的说话风格。为了改进参考选择,我们提出了。CALM 通过对比学习优化说话风格嵌入和提取的 STF 之间的相关性。原创 2024-03-27 18:14:55 · 1039 阅读 · 0 评论 -
【Emotion Recognition with wav2vec2 base on IEMOCAP】项目报错解决方案
下载后,放到wav2vec2-IEMOCAP文件夹下。该错误是缺少wav2vec2-base模型,在。中下载后放到wav2vec2-base文件里。该错误是由于缺少项目预训练模型,在。原创 2024-01-08 20:44:26 · 520 阅读 · 0 评论