音乐背景如何推动多语言TTS技术研究

最新推荐文章于 2025-12-22 21:38:10 发布

原创最新推荐文章于 2025-12-22 21:38:10 发布 · 719 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#easyui #前端 #javascript #文本转语音 #多语言合成 #语音模型 #程序那些事

音乐背景如何推动多语言TTS技术研究

一位从事多语言文本转语音（TTS）研究的科学家利用其音乐背景帮助寻找创新解决方案。Ariadna Sanchez从小沉浸在音乐表演和管弦乐世界中，5岁开始学习小提琴，立志从事音乐事业。如今，她是一位文本转语音研究科学家，早期的音乐兴趣影响了她的职业道路。

Sanchez从事多语言TTS研究，涉及研究能够以本地口音说任何语言的语音模型。TTS是一个混合学科——不仅仅是工程或纯技术——Sanchez表示她的音乐背景使她能够以独特的方式寻找新颖解决方案或看待问题。

将音乐与技术联系起来

在西班牙巴塞罗那接受音乐强化教育的Sanchez，15岁时就开始考虑大学，她想找一个与音乐相关的学位课程。她在巴塞罗那加泰罗尼亚理工大学的电信工程系找到了一个分支，即语音、音乐和视频处理。该课程的人工智能和机器学习内容也引起了她的兴趣。

当时，她专注于音乐及其如何应用于机器学习。她的一位教授正在研究创建一种可以通过不同方式调制以听起来更人性化的声音，结合语言和技术元素。

"这让我意识到’哦，我实际上真的很喜欢TTS这方面的工作’，"她说。在声学咨询公司的实习也帮助她意识到，她想要做能够寻找突破和"发现新事物"的工作。

在她的毕业论文中，她结合这些兴趣开发了一款基于音频的游戏。特别吸引她的是编写良好的故事型游戏，Sanchez表示她玩各种类型的视频游戏，这是她的爱好和热情所在。

"我试图理解不同环境的声学如何影响玩家的感知，以及玩家如何享受和导航纯音频游戏，"她说。

TTS研究之路

在Telefónica的实习帮助确定了她旅程的下一步，她的工作涉及专注于基于文本的自然语言处理的机器学习。完成本科学位后，她在苏格兰爱丁堡大学攻读了语音和语言处理硕士学位。

在那里，她学习了自然语言理解、人机交互、文本转语音和自动语音识别。

"我发现TTS整体上更吸引人，"她说。“语音不仅关乎你说什么，还关乎你怎么说，说话人的声音如何，等等。”

Sanchez主动学习了更多关于英语、苏格兰盖尔语和日语等语言的细微差别。她将对这个主题的迷恋与她长期以来对各种音乐的兴趣联系起来，从朋克到古典，再到主流流行和融合风格。她的TTS研究也激发了她学习语言及其差异的兴趣。

"我一直非常喜欢带有歌词的旋律音乐，这使我对语言的细微差别、歌词的构成和语言的语义产生了兴趣，"她说。“这也让我非常投入学习语言，以便能够理解我听的音乐。”

当某中心的招聘人员在她完成学位时访问爱丁堡大学时，他们正在寻找精通西班牙语的语言工程师，并聘她为语言工程师实习生。这次实习导致她在某中心获得了全职职位。

“我的背景主要在工程方面，所以在实习期间，我不仅在语言学方面建立了更多技能，还学到了很多关于团队合作的知识，以及优先级排序对项目成功的重要性。”

多种口音，一种声音

现在，担任研究科学家近四年的Sanchez专注于提供更统一的语音体验。过去，Echo设备上的新语言和口音有不同的声音，例如美式西班牙语和欧式西班牙语，听起来像两个不同的人。Sanchez研究的目标是设计模型，以正确的本地口音发音各种语言的单词，但使用相同的声音，以实现连续性。

"如果你像我一样有一个多语言家庭，有不同的声音说不同的语言有点奇怪，"她指出。"但如果同一个人对你说所有这些不同的语言，听起来就不那么刺耳。"她和她的团队已经证明这可以工作，英式英语和美式英语的男性声音现在使用相同的声音。

Sanchez表示，她的工作也受到她阅读技术伦理的影响，特别是Cathy O’Neil和Caroline Criado Perez作者的著作。

"提供更多语音选项很重要，"她说。"拥有更广泛的声音范围带来更多多样性，并为不同社区带来更多验证。"为此，她的团队致力于开发代表更广泛声音和说话风格的多语言声音。

今年9月，Sanchez在Interspeech 2022上发表了"统一与征服：语音特征表示如何影响多语言文本转语音（TTS）"。该论文探讨了在多语言模型中表示语言特征的两种主要方法。

在论文中，Sanchez和她的合著者指出：“本文的主要贡献在于实验和评估，旨在理解统一的输入语言特征表示和分离的表示如何影响多语言合成的质量，包括声音的自然度和口音。据我们所知，这是第一个对此主题进行系统研究和评估的工作。”

"当我们研究多说话人多语言模型的设计选择时，我们没有找到任何彻底比较不同类型语言特征的文献，"她说。“我们决定探索并撰写两种非常不同的表示输入语言特征的方法——基于语音知识统一它们，或分离代表不同语言/口音音素的所有标记。通过这一点，我们发现使用统一表示导致更自然和稳定的语音，同时具有更清晰的口音。”

虽然这是重要的一步，但Sanchez强调还有更多步骤需要采取：“为了在该领域向前发展，我们需要改进对语音参数的控制，如音高、语调、音调和音色，单独控制。”

她和她的团队继续努力实现更自然的语音，更接近人们实际说话的方式。

"我们正处于文本转语音的一个非常令人兴奋的点，我们正在远离听起来 robotic 的旧TTS系统，转向更平易近人和友好的声音，"她说。“最终，这是一个重要因素，使我们的客户每天都能与Alexa进行更有吸引力的对话。”
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传