
音频技术
文章平均质量分 90
音频技术
_Rye_
左手代码右手诗
一行代码一行诗
展开
-
15|AI变声:音频AI技术的集大成者
15|AI变声:音频AI技术的集大成者AI 技术在音频领域发展十分迅速。除了之前介绍的降噪、回声消除以及丢包补偿等方向可以用 AI 模型来提升音质听感之外,AI 模型还有很多有趣的应用。其中比较常见的有 ASR(Automatic Speech Recognition)可以理解为语音转文字,TTS(Text To Speech)文字转语音和 VPR(Voice Print Recognition)声纹识别等。在之前说的音效算法的时候了解到,要做到变声需要改变整个语音信号的基频,还需要改变语音的音色。原创 2022-03-19 22:19:46 · 8296 阅读 · 1 评论 -
音频技术漫谈之好声音是怎么炼成的?
什么是高音质?高音质在后疫情时代被大家频繁提及。可以回想一下,在你的工作和生活中,疫情期间是不是增加了很多实时音频互动场景,那么在后疫情时代,实时音频发生了哪些改变呢?首先,这是一个因果导向的事情,由于疫情催化,我们在实时音频的用法和用量上都有了大幅度的增加,以前可能不会去做一些在线会议、在线教育等等,现在都要把这些工具用起来。在这样的情况下,对实时音频的质量就会提出更高的要求。比如,日常打电话,可能觉得能听到对方在说什么就 OK 了,但现在可能会想去看一些直播以及在线音乐场景,这就需要更多的高原创 2022-03-19 20:05:11 · 4906 阅读 · 0 评论 -
14|音效三剑客:变调、均衡器、混响
14|音效三剑客:变调、均衡器、混响《名侦探柯南》里的变声器在现实中能否实现?百万调音师能让本来唱歌跑调的人的歌声变得好听,这到底是用了什么神奇的方法?现在介绍的音频中的音效,就是为了实现这些变声、修音等特效而设计的一系列的音频处理算法。为了实现某种特定的效果,音效算法的种类有很多,这里主要介绍三种常见的音效算法:变调、均衡器和混响的设计和使用方法。变调其实在之前介绍弱网对抗部分的时候,在做快慢放操作时就使用到了变速不变调算法,这其实是变调算法中的一种用法。在讲算法具体实现之前先想一下,变调原创 2022-03-17 11:45:25 · 10438 阅读 · 0 评论 -
12|空间音频:如何实现“声临其境”?
12|空间音频:如何实现“声临其境”?前面主要介绍了音频链路中必备的前处理模块,可以说是音频体验的基础设施。在这个基础上就可以实现很多有趣的应用,也就是音频应用的上层建筑。现在,先来讲一讲如何重现一个声场环境,让音频能够穿越时空的限制,做到“声临其境”的。你可以先闭上眼睛,尝试听一听周围的声音。你是不是可以感受到有的声音是从左边传来,有的声音会从右边,甚至是从后面传来。如果身处地铁、小巷、教室或者球场,是不是听到的声音也会有所不同。有的时候,浴室里的声音会比较浑浊,而操场等空旷的场景声音又会显得比较原创 2022-03-15 13:15:00 · 3987 阅读 · 0 评论 -
13|如何利用HRTF实现听音辨位?
13|如何利用HRTF实现听音辨位?之前介绍了空间音频的基本概念,以及空间音频是如何采集和播放的。已经基本掌握了空间音频的基本原理。其实在游戏、社交、影视等场景中,空间音频被广泛地应用于构建虚拟的空间环境。在空间音频的应用里最常见的一种就是“听音辨位”。比如在很多射击游戏中,能够通过耳机中目标的脚步、枪声等信息来判断目标的方向。如何利用 HRTF(Head Related Transfer Functions)头相关传递函数来实现“听音辨位”。HRTF 简介之前介绍的“双耳效应”实际上就是空原创 2022-03-14 13:42:59 · 3615 阅读 · 0 评论 -
11|网络差怎么办?音频网络传输与抗弱网策略
11|网络差怎么办?音频网络传输与抗弱网策略上次了如何挑选一个编解码器。其实编解码器就是把音频信息拆解、包装成一个个的数据包,然后通过网络传输到远端。在远端打开数据包,再组装成音频播放出去。如果把一个个数据包比喻成一辆辆运送音频货物的小车,而网络则是运输的道路。那么会发现:有的时候经过的是高速公路,物流十分流畅;但有的时候经过的却是崎岖蜿蜒的山路,甚至有的小车在山路上,摔下了悬崖,丢掉了包裹,或者赶上交通高峰期道路十分拥堵,从而小车超过了规定的物流时间,这些情况就是我们说的弱网。一般在弱网情况下原创 2022-03-14 13:08:53 · 6483 阅读 · 0 评论 -
10|如何选择一个适合你的编解码器?
10|如何选择一个适合你的编解码器?上次介绍了音频编 / 解码器的基本原理。相信已经对编 / 解码器有了一个整体的了解。其实编 / 解码器中的算法链路还是比较复杂的,自己从头开始设计和调试一个编 / 解码器的研发成本也是非常巨大的。所以我们一般会选择已有的编 / 解码器来使用。而音频编 / 解码器经过几十年的发展,其实已经有很多成熟的解决方案可以选择。而且不同的场景对实时音频也有不同的要求。比如,音乐场景要求有比较高的采样率;合唱场景则需要比较低的延迟等。那具体根据什么标准来选择编解码器呢?今天就来原创 2022-03-14 12:47:35 · 2999 阅读 · 0 评论 -
09|音频编解码器是如何工作的?
09|音频编解码器是如何工作的?今天介绍一下什么是音频编 / 解码器,以及它背后的原理。不妨先设想一下:如果没有音频编 / 解码器,直接给对方发送原始数据,会发生什么事情呢?假设一个在线会议有 10 个人,每个人要发给另外 9 个人的音频信号是 48kHz 采样率的单通道音频。每个采样点用 16 位的浮点来表示。那么上行通道中需要每秒发送 48000 乘以 16 bit 的音频信号,也就是大约 768kbps;而接收的下行通路的信号是除了你之外的另外 9 个人的信号,也就是 6912kbps。所原创 2022-03-14 12:26:20 · 4631 阅读 · 0 评论 -
08|回声消除算法实践
08|回声消除算法实践上之前介绍了回声消除算法的基本原理。知道了回声消除会受到声学环境、采集播放设备等多种因素的影响。因此,要想实现一个鲁棒、高效的回声消除算法是一件比较有挑战的事情。而在实际的音频实时互动场景中,回声问题可能也是我们碰到的最多的问题之一。值得注意的是,音频处理往往是一环套一环的链路式的处理结构,回声消除作为音频前处理链路的一环很可能会对整体的音频体验产生影响。所以这次从整体上,了解一下实时音频互动系统的链路是怎么搭建的。然后再从几个案例出发,看看是如何改进回声消除算法,以及和其它模原创 2022-03-13 23:41:18 · 1943 阅读 · 0 评论 -
07|如何通过算法自动快速地消除回声?
07|如何通过算法自动快速地消除回声?现在将会看看语音交互或者说音频通信领域的另一项不可或缺的技术:声学回声消除(Acoustic Echo Cancellation, 简称 AEC)。回声消除算法在实时音频互动链路中和很多其它模块以及硬件都会有耦合。主要看看实时音频互动链路中回声是如何产生的以及回声消除算法的基本原理。只要理解了原理,就很容易能明白公式的含义,从而能够记住公式的定义。回声产生的原因回声是如何产生的呢?可以通过下面的图来看一下,这是一个出现回声的经典场景。图1 回声产原创 2022-03-13 23:25:07 · 3833 阅读 · 0 评论 -
06|如何将AI技术运用到降噪中?
06|如何将AI技术运用到降噪中?之前讲了噪声的分类和一些常见的传统降噪算法。传统算法通过统计的方法对噪声进行估计,并可以对稳态噪声起到比较好的降噪作用,但是在非稳态噪声和瞬态噪声等噪声类型下,传统降噪算法往往不能起到比较好的效果。最近几年,随着 AI 技术的不断演进,在降噪等音频处理领域,都出现了很多基于 Artificail Intelligence(AI)或者说基于人工神经网络模型的降噪算法。这些 AI 算法在降噪能力上较传统算法都有很大的提升。但 AI 降噪算法和很多其它AI 算法一样,在部原创 2022-03-13 23:00:49 · 3275 阅读 · 0 评论 -
05|音频降噪如何对症下药?
听到噪声,很多人可能首先想到的是深夜的广场舞曲、呼啸的东北风、车水马龙的呼啸而过。但其实噪声是一个相对的概念。如果你想听的目标只有人们说话的声音,那么所有其它的声音包括音乐、 风声等其就都是噪声,而如果你想听鸟语虫鸣,那人声对你来说也是噪声。在这里主要聊的是当保留目标是人声时,噪声会有哪些分类,它们有什么特点,以及如何更好地保留人声去除噪声。这也是音视频工程师的主要工作场景。噪声的分类从通信系统的角度来说,噪声可以分为加性噪声和乘性噪声。加性噪声与信号之间满足加性条件,即加噪信号是由噪声和源原创 2022-03-13 22:33:42 · 13877 阅读 · 1 评论 -
04|如何评价音频质量的好与坏?
04|如何评价音频质量的好与坏?音频在采集、处理、压缩、传输、播放等过程中,不可避免的会对音频的质量产生影响。来看一下,音频质量是如何进行评价的。音频编码封装的时候,有损编码和无损编码。对于有损编码,有的人听上去几乎和无损一致,有的人却能听出差别。再比如降噪算法,降噪算法可能会对人声产生损伤、也可能有残余噪声影响听感。因此,评判一个降噪算法的好坏也需要一套综合的音频评价体系。其实音频的评价方法主要有两种。一种是主观评价,即组织足够数量的人来听被测音频样本,并给每个被测样本打分,最后根据测试人打分原创 2022-03-13 22:00:02 · 3185 阅读 · 1 评论 -
03|如何分析与处理音乐信号?
03|如何分析与处理音乐信号?音乐信号受乐理、乐器发音规律、心理感知等因素的影响,与语音信号在分析和处理方法上不尽相同。而且音乐层面的分析涉及的知识领域比较多,知识容易发散。音乐信号中的基础概念这里主要介绍一下常见乐器的发音原理,什么是速度和节拍,以及什么是音调和调式。常见的乐器种类和发音原理还记得语音信号分析中,人的发音原理吗?音乐信号中除了人声歌唱的部分外,主要是乐器的声音,那么乐器是如何发音的,它们有什么规律吗?结合常见的乐器种类一起看下。日常中常见的乐器主要有三种:打击乐器、原创 2022-03-13 21:33:53 · 1830 阅读 · 0 评论 -
02|如何量化分析语音信号?
02|如何量化分析语音信号?语音的基本特征语音按照发音原理可以分为清音和浊音,语音的音调、能量分布等信息可以用基频、谐波、共振峰等特征来分析。为了更好地分析语音,先来看看语音是如何产生的?浊音和清音可以结合下图的人体发音器官结构示意图来看一下语音是如何产生的。声道就是声音传播所通过的地方。发音的声道主要是指三个腔体,即咽腔、口腔和鼻腔。而语音是由声源和声道共同作用产生的。按照声源的不同把语音分成以下两类:第一类是声带振动作为声源产生的声音,把它们叫做浊音。比如拼音中的 “a,o,原创 2022-03-13 21:08:40 · 6451 阅读 · 1 评论 -
01|声音是如何保存成数字信号的?
01|声音是如何保存成数字信号的?音频信号的关键指标声音我们每天都会听见,似乎早已习以为常。那么我们是怎么把声音信号转换成数字信号记录下来存储和传输的呢?声音是听觉对声波产生的感知,而声波的本质是介质的振动,比如空气的振动。那么我们只需要把这个振动信号记录下来,并用一串数字来表达振动信号振动的快慢和振动的幅度,就可以实现声音的记录。如图 1 所示,以前的留声机就是通过唱片上凹槽的深浅、长短来表征声音的振幅和持续时间。...原创 2022-03-13 20:21:39 · 3663 阅读 · 0 评论