百度语音系统Deep Voice新突破 可在几秒内克隆你的声音

百度语音系统Deep Voice新突破 可在几秒内克隆你的声音

文章来源:ATYUN AI平台 

百度的AI研究部门近日宣布,其文本到语音(TTS)系统“Deep Voice”已经学会了如何使用仅三秒钟的语音样本数据来模仿人类的声音。

这项技术被称为“语音克隆”,可以用来个性化虚拟助手,比如苹果的Siri、Google Assistant、Amazon Alexa;百度的DuerOS(对话式人工智能系统,在中国支持5000万部设备)。

在医疗保健领域,语音克隆技术帮助那些失去了声音的病人建立了一个复制品。在娱乐产业和社交媒体上,语音克隆甚至可能起到意想不到的作用。

百度研究人员实现了两种方法:说话者自适应(speaker adaption)和说话者编码(speaker encoding)。它们都能以最小的音频输入数据来实现良好的性能,并能在深度语音系统中集成到一个多扬声器生成模型中,而无需降低质量。

说话者自适应是基于多扬声器生成模型或仅适用于低维度的扬声器嵌入的基于反向传播的方法。与此同时,扬声器编码将多扬声器生成模型与另一个独立的模型结合在一起,生成一个从克隆音频中嵌入的新扬声器。这种方法缩短了克隆时间,只需要几秒钟,并且需要少量的参数来表示每个说话者,这使它有利于低资源部署。

百度语音系统Deep Voice新突破 可在几秒内克隆你的声音

为训练、克隆和音频生成提供扬声器的适应和扬声器编码方法。由百度研究。

百度发布了多段三秒的克隆音频片段,追踪从原始声音到合成声音的过程,这些声音惊人地相似。

百度对语音克隆研究领域的可能性表示乐观。例如,元学习的进展,这是一种学习到学习(learn-to-learn)的系统方法,可以显著提高语音克隆的质量。

但是,百度并不是唯一一个利用人工智能模仿人类声音的机构。谷歌旗下的DeepMind在2016年推出了其TTS项目WaveNet,该系统模拟了来自真人声音的音频波形,并产生了令人信服的自然模拟。此外,Adobe还推出了一款名为Project VoCo的原型软件,该软件可以在20分钟内学会模仿声音。去年,蒙特利尔的创业公司Lyrebird将语音克隆技术推向了一个新的水平,该系统只需要一个60秒的音频样本输入,就能实现“一个听起来像你的声音的数字语音”。

最近,合成人类声音领域的突破也引起了人们的关注。人工智能可能会在现实生活或安全系统中降低语音识别的功能。例如,语音技术可以通过在他们的声音中制造虚假陈述来恶意地攻击公众人物。BBC记者与他的孪生兄弟进行的测试也证明了模仿语音系统的声音的能力。

百度的Deep Voice减少了训练时间,提高了语音克隆的发展,而且在医疗解决方案和其他领域的应用也取得了进展。

本文转自ATYUN人工智能媒体平台,原文链接:百度语音系统Deep Voice新突破 可在几秒内克隆你的声音

更多推荐

智能的极限!——用AI模型洞悉宇宙

数据驱动的反思

MIT开发“微型乐高”机器人,可以用它制造组装其他机器人

神经网络识别和区分图像数据中的神经细胞成分

欢迎关注ATYUN官方公众号,商务合作及内容投稿请联系邮箱:bd@atyun.com
欢迎关注ATYUN官方公众号,商务合作及内容投稿请联系邮箱:bd@atyun.com

 

### 部署和运行Deep Voice 3于GPU服务器 对于希望在GPU服务器上部署和运行Deep Voice 3的情况,具体操作涉及几个重要方面。首先,在具备20个CPU核心的单GPU服务器环境中,目标是达到每日1000万次查询或每秒116次查询(QPS)的吞吐量,这与商业部署的成本效益相匹配[^2]。 为了达成这一性能指标,针对Deep Voice 3架构实现了定制化的GPU内核,并利用了WORLD合成算法的跨CPU并行化处理能力来加速推理过程。这些技术手段共同作用下,使得模型能够高效地响应大量并发请求,满足高负载下的实时语音合成功能需求。 实际应用中,可以通过Python脚本调用TTS库完成从文本到语音文件的转换工作。下面是一个简单的例子展示如何设置环境并将指定的文字转化为音频输出: ```python from TTS.api import TTS # 初始化TTS对象并加载预训练模型 tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2") # 若有可用GPU,则迁移至CUDA设备以加快计算速度 tts.to("cuda") # 使用克隆声音功能生成讲话内容,默认配置下执行 tts.tts_to_file( text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.", file_path="output.wav", speaker_wav="5.wav", language="en" ) ``` 此段代码展示了基本的工作流程,包括初始化、选择合适的硬件资源(如存在则优先考虑GPU),以及最终将输入文本转成对应的语音文件保存下来[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值