
论文笔记
文章平均质量分 93
别和我卷!
同济大学软件学院大三在读--
展开
-
论文阅读:VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial
单阶段文本到语音模型最近被积极研究,其结果优于两阶段管道系统。以往的单阶段模型虽然取得了较大的进展,但在间歇性非自然性、计算效率、对音素转换依赖性强等方面仍有改进的空间。本文提出VITS2,一种单阶段的文本到语音模型,通过改进之前工作的几个方面,有效地合成了更自然的语音。本文提出了改进的结构和训练机制,所提出的方法在提高多说话人模型中语音特征的自然度、相似性以及训练和推理效率方面是有效的。证明了所提出方法可以显著减少以前工作中对音素转换的强依赖,允许完全端到端单阶段方法。原创 2023-08-09 07:30:00 · 3278 阅读 · 2 评论 -
YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot VoiceConversion for everyone论文阅读
YourTTS为zero-shot multispeaker的TTS任务带来了多语言(multilingual)方法的力量。该方法基于VITS模型,并为零样本多说话人和多语言训练添加了一些新的修改。在零样本多说话人TTS中取得了最先进的(SOTA)结果,在VCTK数据集上的零样本语音转换结果与SOTA相当。该方法在单说话人数据集的目标语言中取得了很好的结果,为低资源语言的零样本多说话人TTS和零样本语音转换系统打开了可能性。原创 2023-08-08 11:19:12 · 1426 阅读 · 0 评论 -
AoANet论文阅读笔记
作者认为attention机制在当前的图像描述encoder/decoder框架中广泛使用,其中在每个时间步生成编码矢量的加权平均值以指导描述的解码过程。但是,解码器几乎不了解相关向量和给定attention查询之间的关系或关联程度如何,这可能会使解码器给出错误的结果。在本论文中,作者提出了一个“Attention on Attention”(AoA)模块,该模块扩展了常规的注意力机制,以确定注意力结果和查询结果的相关性。AoA首先使用注意力结果和当前的上下文生成一个“信息向量...原创 2022-06-05 11:50:44 · 1151 阅读 · 0 评论