有了它,手机小屏幕也有 3A 大作的沉浸感!

本文介绍了网易云信如何在其游戏语音3.0产品中应用AI技术,包括音频降噪、回声消除、3D音效和音乐检测。AI技术通过精简特征、轻量化模型和定向优化,提供高质量的语音体验,已经在《天谕》等游戏中得到广泛应用,并获得了行业认可。

34bb7fff032dda9c51568bf53e44563a.png

近日,网易云信和莉莉丝游戏达成游戏语音相关的合作,许多朋友都对 AI 在语音中的应用很感兴趣。在网易云信游戏语音 3.0 「金字塔」中,AI 被我们放在了顶端,作为突破玩法创新天花板的关键技术之一。

516b869152b0db3187476f7c9140b5b9.png

今天这篇推送,我们就为大家揭开网易云信 AI 技术在语音领域的应用实践

ec499bc025224bbdd11654743dda31ef.png

整体而言,网易云信在语音中对 AI 的应用,采用 3 条主要技术路线:

1. 更合适的输入特征:特征量不求多,求精。通过减小特征量以降低开销,并弥补小模型带来的性能损失

2. 更轻量的网络模型:我们会压缩模型的大小,并有针对性地选择模型类型,进一步降本

3. 更精准的定向优化:通过大量收集/积累训练数据集,基于模型压缩、数据增强和推理框架,配合传统语音算法框架,去做定向的训练优化

目前,AI 主要应用在 4 大语音场景中:音频降噪、回声消除、3D 音效和音乐检测

c339f152c0860c7c327e7480a0817ccc.jpeg

网易云信 AI + 音频全景图

f4ba73f7cd3e028146533a534ba7cb02.png

不知道大家有没有这样的体验——跟队友紧张配合到一半,对方的麦克风里传来小孩哇哇大哭的声音,或是刺耳的喇叭声,顿时兴致全无,一场游戏也在对方的连声道歉中草草结束。

的确,环境噪声是音视频通话场景中最让人头疼的干扰因素,而这用 AI 来搞定是再合适不过的了。

音频降噪中最具挑战的噪声类型有两种:非平稳噪声和瞬态噪声。比如尖锐的搅拌声,这种噪音是传统算法无法消除的。普遍的 AI 降噪方案往往无法很好地平衡噪声与音质,通常噪声没了,通话也受到了牵连。要达成两者的平衡,只能靠堆成本。

网易云信自研 AI 降噪算法,降噪、音质、成本不再是 3 选 1 的窘境,而是“我全都要”!这项技术通过智能分析环境音成分,自动甄别并过滤环境噪声。开启 AI 降噪后,在嘈杂的环境中能针对背景人声、键盘声等非平稳噪声进行定向降噪,并提升对环境稳态噪声的控制,保留更纯粹的人声;对于瞬态噪声,比如儿童的哭喊、敲桌子声、关门声等,也能更有效地抑制。接入了网易云信,游戏开黑再也不怕列车上的熊孩子,开麦仿佛给队友也戴上了 airpods

这样的算法消耗大吗?其实,网易云信的 AI 降噪算法只基于一个轻量的深度神经网络,开销小,适合实时计算并在移动端落地。

在行业内,经过客观的量化评测,该算法已经达到行业第一梯队水平,在部分场景下达到了行业领先水平。

023f5dd4c8ddfd2325c20e55bb4a982a.png

接下来是回声消除智能 AEC(声学回声消除)算法。

在两端或者多端的实时通话中,回声消除是必不可少的模块。但 RTC 实时通话是一个很长的音频链路,包括了音频采集、声源、环境噪声、环境响应、声音采集、硬件音频处理、音频算法、音频编码、网络传输、音频解码、硬件播放等环节,音频算法只是其中一个小部分。因此 AEC 的输入输出也是经历全链路的,算法层面的优化远远不够。

因此,我们做的第一件事就是大量的设备音频适配。我们有非常多的终端移动设备,通过在实验室不断进行设备音频回路的录音分析、算法抽检,把各种厂商和平台的设备都进行适配,再搭配算法进行系统化的测试。设备适配的过程包括了标准化的音频录制,遍历各种设备音频模式。

接着,面向不同的场景,我们做了针对性的优化。比如,我们首创了 Noise Injection 和移动端双讲检测算法。Noise Injection 是网易云信独有的技术,移动端双讲检测是针对移动端设备播放器低频非线性失真所设计的,在移动设备上,检测的准确性在业内已经达到标杆水平。这两个算法大幅度提升了云信音频 AEC 的表现,特别是在耳机场景下,降低了双讲抑制,成功助力了网易云信和网易云音乐的合作,并且在 LOOK 直播和“一起听”上顺利落地。

03f29fbadfe78a86c8b4cf4c98cdfe0f.png

470ebe2600a0047c28da906fe5a46c70.png

3D 音效也称空间音效(Spatial Sound),在游戏中,可以是敌人偷偷出现在你左后方时的脚步声,同伴在你右边换弹夹的声音,左边窗户被打碎的声音,或者右前方手榴弹的爆炸声,是通过在音频信号中添加空间信息,使得听众可以感受到声音来自于特定的位置和空间环境。它可以增强音频的真实感和沉浸感,让听众感受到更加真实的声音效果。

本质上,3D 音效就是基于人耳的一些特殊心理声学效应,通过一些声学相关算法计算模拟,仿造出似乎存在但实际虚构的声音。

作为网易云信另一项革命性的技术,网易云信的 3D 音效 AI 方案能够将声音来源方向模拟成来自三维空间的特定位置,包括前后左右和上下,从而创造出更加真实和沉浸的音频体验。

d400ff5c60f374cef5919cf9f2ad08f9.png

网易云信是行业内首家推出实时语音 3D 音效算法的创新者。这一技术不仅实现了 3D 空间音效,还引入了距离音效和房间音效的元素。对于游戏行业,尤其是射击品类游戏,真实感和沉浸感大大增强——玩家能更好感知游戏中的声音,比如更清晰地听到敌人悄悄接近的脚步声、队友更换弹夹的声音,以及环境中窗户破碎和爆炸声等,手机游戏的小屏幕也能营造出 3A 端游大作的体验感。恐怖游戏也可以利用黑暗和低能见度,使玩家通过 3D 声音线索,创造出悬念和紧张感。

目前,这一技术已经成功集成到网易云信音视频 SDK 中,正迅速落地到各种游戏项目中。

可以通过以下视频感受下云信的 3D 音效 AI 技术能力:

fa9fb415616065e7d3c0342156b0aaf4.png

许多游戏场景都跟音乐密切相关,比如在《天谕》中,游戏中的玩家可以连麦、合唱,甚至使用游戏音乐伴奏。普通的音频处理方案会对音乐造成损失。比如,音乐经过 AGC 和 NS 后,音乐信号就会被处理得忽大忽小、断断续续。

网易云信推出了国内行业中首个 AI 音乐检测模型。算法通过一个轻量级的神经网络,实时对声音场景进行三分类:音乐、语音和噪声。在检测出信号是否具备音乐这一信息后,当音乐信号进入系统时,就可以通过动态调节其它算法模块,保证音乐质量。

值得一提的是,算法检测准确率和 DCASE2021 Task1-Subtask A 中的算法相当,且计算开销小,非常适合在移动端落地;相较 Opus 编码器中的 AI 音乐检测,在计算开销相同的情况下,网易云信的智能音乐检测有着更高、更鲁棒的准确性

74d70ae8238f932f661416afeaeab01a.png

游戏语音在《天谕》中的社交化应用

c0e577c0d68fb5c0737b692ad2dd9a05.png

网易云信的 AI 音频算法不仅在实际应用中表现出色,还得到了行业内的认可和奖项肯定。

其中, AI 音频降噪和 AI 音乐检测研究成果被录用于第 50 届国际噪声控制工程大会(INTER-NOISE),这是其在音频领域的卓越贡献的充分证明。

此外,网易云信 AI 啸叫检测论文被全球顶级音频技术会议 ICASSP 2022 收录,进一步巩固了其在音频技术研究方面的领先地位。

同时,AI 在网易云信业务中的应用不仅局限在音频中,更落地在即时通讯、视频等多个领域。网易云信会持续乘着 AI 的风,以技术为翼,为更多的开发者与企业带来倍速的进化

06de0aa5a6fe19fe9d277e7dfbe89380.jpeg

outside_default.png

   干货资料 免费领取   

outside_default.png

【点击下方卡片】或【扫描二维码】即可免费领取!

b1bca24b3571c12dd2271244e2ec1e4d.png

6f8d05f43bbef5402556ac3ca4419da8.png

3dbdc04128ff5db0b0352379f109aca2.png

d0e9cade67c03c2e92dfec0ec9777a63.png

be7699d3a65ffb7a394e683a90143e86.png

fed44f301aeb76c589d91bdd27aaf353.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值