采用声谱图训练深度学习网络 MelNet能复制并模仿人类语调

鉴于近年来机器学习技术的巨大进步,人们已经看到了图像和图片的许多发展。但是,声音的应用还比较少见。即便是最好的系统仍然听起来像一个文本到语音的程序。 “机器”的味道,但在Facebook AI Research创建了可以再现人声的AI系统“MelNet”之后,这种情况可能持续了很长时间。

人工智能很少用于声音的原因并不是因为缺乏实验,就像图像和图像一样。许多团队使用大型数据库来训练深度学习算法,以尝试重现真实的语音。然而,大多数过去的研究都使用了声音波形(波形经过训练,所产生的AI在复制人体音调时的表现往往低于预期,这也导致文本到语音系统的进展缓慢。

与大多数研究人员不同,Facebook AI Research的Sean Vasquez和Mike Lewis选择采用不同的方法,而不是专注于声波地图,使用光谱图来训练深度学习网络,Vasquez和Lewis解释说,因为频谱图的时间线比超声波图,这意味着波形中数万个时间序列的相关性在频谱图中仅相差几百个,使得深度学习系统更容易获得相关性。

“这也使我们的频谱图模型能够产生无限的语音和音乐样本,并与原始样本保持一致。”

结果令人印象深刻。在使用TED原始语音内容培训fun88公益系统后,MelNet能够在几秒钟内重现TED扬声器的声音并说些什么。除了Bill Gates,Li Feifei和Jane之外,团队发布的所有例子都可以在这里查看。在德国的TED扬声器和数据库中模仿各种重音对象,团队也让MelNet模仿片段音乐的制作,结果相当惊人。

当然,MelNet仍有其局限性。虽然听起来像是一个短句的人,但是当内容长时间变化时,人们常常会带来情感,但MelNet没有这种能力。此外,MelNet可以非常快速地生成可信的短句,但它不会产生更长的句子,段落或整个故事,这不是一个可以很快实现的目标。

虽然复制有很多限制,但可以想象MelNet的出现将对未来的人机交互产生重大影响。对于诸如交换机和帮助台之类的任务,对话通常涉及使用短句测验,类似MelNet的系统将允许机器以类似人类的方式自动化这些交互。另一方面,就像许多其他可以模仿人类的人工智能技术一样,未来其他人在其他用途中使用MelNet并不是不可想象的,一旦这些深度技术结合在一起,它就会发生再次。这是怎么回事?与往常一样,AI在模仿人类方面的发展似乎提出了更多的道德问题而不是答案。

转载于:https://my.oschina.net/u/3899617/blog/3064289

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值