u013250861
这个作者很懒,什么都没留下…
展开
-
信噪比(SNR, Signal-to-Noise Ratio)、声音强度/声压级(SPL)、 分贝(dB/decibel)的关系
信噪比(SNR, Signal-to-Noise Ratio)是用于衡量信号强度与噪声强度相对大小的指标,通常用于通信、语音处理和信号处理领域。它表示有用的信号(Signal)与背景噪声(Noise)的比值。原创 2025-01-13 18:35:39 · 419 阅读 · 0 评论 -
Audio-SE:开源语音增强(SE)模型
1. 深度学习语音增强模型SEGAN (Speech Enhancement GAN)简介:基于生成对抗网络的语音增强模型。 GitHub地址:GitHub - santi-pdp/segan: Speech Enhancement Generative Adversarial Network in TensorFlowDCCRN (Deep Complex Convolutional Recurrent Network)简介:结合复数卷积和循环神经网络的语音增强模型。 GitHub地址:原创 2025-01-13 16:38:01 · 92 阅读 · 0 评论 -
WebRTC 语音激活检测(VAD)算法
检测原理是根据人声的频谱范围,把输入的频谱分成六个子带(80Hz~250Hz,250Hz~500Hz,500Hz~1K,1K~2K,2K~3K,3K~4K), 分别计算这六个子带的能量。对数似然比分为全局和局部,全局是六个子带之加权之和,而局部是指每一个子带则是局部,所以语音判决会先判断子带,子带判断没有时会判断全局,只要有一方过了,就算有语音。由于实际应用中,单纯依靠能量检测特征检测等方法很难判断人声说话的起始点,所以市面上大多数的语音产品都是使用唤醒词判断语音起始,另外加上声音回路,还可以做语音打断。原创 2024-12-18 20:06:49 · 306 阅读 · 0 评论 -
Freeze-Omni:准确性超Moshi和GLM-4-Voice!端到端语音双工模型
第二阶段(b)将会训练NAR语音编码器和AR语音编码器,这里会使用文本-语音的TTS数据,其文本会通过基底LLM的Tokenizer转化为Token,再经过基底LLM的Embedding层转化为文本特征,这个过程中Embedding的参数是冻结的,训练目标的语音Token是由第一阶段的语音编码器提供。:Freeze-Omni提供了其在LlaMA-Questions, Web Questions, 和Trivia QA三个集合上的语音问答准确率评估,从结果中可以看出Freeze-Omni的准确率具有。原创 2024-12-16 17:43:20 · 151 阅读 · 0 评论 -
语音数据集
记录一下语音方向的常用数据集,先介绍语音增强强相关的,后续陆续补充其他。原创 2024-08-17 16:21:17 · 196 阅读 · 0 评论 -
什么是分贝dB?
若两个声压级SPL1=SPL2=60dB,但两个声源是相关、同相位的,则合成后的声压级SPL为66dB,因为60dB对应0.02Pa,两个相加为0.04Pa,对应66dB。通常,低频段和高频段声音感知能力不如中频段,效果是在低声压级更明显,在高声压级时会被压平,如图中各条曲线(等响曲线)所示,声压级越小的区间,曲线越陡峭,声压级越大的区段,曲线越平坦。正是因为人耳对不同的频率,敏感度不一样,即使声压级的量级一样,听起来也不一样,所以,需要对真正听到的声压级通过增益因子进行修正,而用得最多的则是A计权。原创 2024-08-12 23:38:10 · 188 阅读 · 0 评论 -
一文读懂语音领域的波束形成Beamforming
波束形成是个很有意思的方向,应用从雷达领域到5G领域,近几年在语音识别领域也大放光彩。本文主要聚焦于波束形成在语音领域的应用。对于单麦克风来说,没有波束的概念;波束形成主要针对多麦克风阵列,融合多个通道的数据,对噪声和干扰方向进行抑制,增强目标方向的信号。一种方式是找到目标信号的方向,一般用导向矢量(steering vector)进行表示,基于此增强目标信号;一种方式是找到干扰信号的方向,进行抑制,剩下的就是目标信号。原创 2024-08-03 20:29:53 · 163 阅读 · 0 评论 -
AFE 声学前端算法框架
智能语音设备需要在远场噪声环境中,仍具备出色的语音交互性能,声学前端 (Audio Front-End, AFE) 算法在构建此类语音用户界面 (Voice-User Interface, VUI) 时至关重要。乐鑫 AI 实验室自主研发了一套乐鑫 AFE 算法框架,可基于功能强大的 ESP32 系列芯片进行声学前端处理,使用户获得高质量且稳定的音频数据,从而构建性能卓越且高性价比的智能语音产品。名称简介。原创 2024-08-03 13:20:22 · 232 阅读 · 0 评论 -
audio语音相关的基础知识-VAD,ASR,AEC,AGC,BF等
有音素之间的间隙,也有静音和语音本身的间隙,为了对数据从时间上进行相对的校准,语音端点检测技术就应运而生了,因此端点检测技术可以决定这种校准的相对精度,使得同一内容的特征更趋于相同,当然,一般情况下是不可能完全相同的。盲源分离的目的是求得源信号的最佳估计,盲辨识的目的是求得传输通道的。这个技术的主要任务是从带有噪声的语音中准确的定位出语音的开始和结束点,因为语音中含有很长的静音,也就是把静音和实际语音分离开来,因为是语音数据的原始处理,所以VAD是语音信号处理过程的关键技术之一。呈现出与会者清晰的声音。原创 2024-08-03 13:18:50 · 441 阅读 · 0 评论 -
绝不对音质妥协——常见的无损音频格式介绍
最后,小灵跟大家分享一下各种音频格式之间的互相转换(PS:如果是有损压缩转换成“无损格式”结果音频也不是无损音源,而是被压缩过后的“无损封装”),音乐格式之间转换的软件很多,这里小灵推荐一个最实用的而且是免费的音乐播放器软件foobar2000,这也是整个音频播放领域最强大(没有之一)的软件,没有之一。同样,声音的存储方式也从爱迪生发明的模拟记录,进化成只有“1和0”的数字符号,通过机器的转译,却能完汁完味记录和重放,而且随着当年帝盟公司把MP3格式的音频格式发扬光大,人们顿时对数字音频的需求日益强烈。原创 2024-06-29 10:21:45 · 378 阅读 · 0 评论 -
音频格式介绍和说明【PCM是音频的裸数据格式,不经过任何压缩】【WAV只在PCM数据格式前加上描述信息】【无损压缩:FLAC】【有损压缩:MP3,AAC,WMA,Opus,APE,m4a,AMR】
他的目的是为了取代MP3格式,与MP3不同,该采用了全新的算法进行编码,更加高效,具有更高的“性价比”。总结来说:WAV 编码不会进行压缩操作,它只在 PCM 数据格式前加上 44 字节(并不一定严格是 44 字节)来描述音频的基本信息,例如采样率、声道数、数据格式等。前文提到过音频会被编码成不同的格式,而常见的压缩编码格式 WAV 格式是与 PCM 数据最为接近的一种格式。常见的压缩格式有:MP3,AAC,OGG,WMA,Opus,FLAC,APE,m4a,AMR等等。原创 2024-06-29 10:06:04 · 300 阅读 · 0 评论 -
有损音频编码器(MP3/AAC/Opus)测试与对比
因为不同于其他编码格式是尽力在给定的码率下还原音频本身的样子,HE-AAC 则是通过 SBR(频谱复制技术) 这样的奇技淫巧尝试糊弄耳朵,虽然你不可否认它在低码率(64Kbps下还不是很明显,如果更低的话对比更鲜明)下确实能提供相对不错的声音,但这样的话就背离音频编码的初衷了,所以在这里我不会对它的表现做像其他编码器一样详细的评价。同样是舍弃掉了 11KHz 以上的全部高频信息,不过神奇的是这首歌发闷的程度竟然是在变化的,能听得出编码器确实是在努力了,但是由于码率太低音质还是属于不能听的那种。原创 2024-06-29 09:50:26 · 820 阅读 · 0 评论 -
TTS语音相关知识总结
音素(phone):也称音位,是能够区别意义的最小语音单位(kit三个字母对应的音就是三个音素)音位(Phoneme,语音单位):和音素基本大概相同,但音位和语言有关。同一个音素(比如l)在不同的单词发音可能是不一样的(比如link和cancel),这样就有了不同的音位(音位变体在四川话中l n不分,那么这两个音素就有相同的音位。字素(grapheme):音素对应的文本(kit中的三个字母就是三个文本/字素)。语素(morpheme):有意义的最小单位,英文中通常指单词。原创 2024-06-19 00:37:19 · 194 阅读 · 0 评论 -
傅立叶变换,时域,频域
信号分析方法概述通信的基础理论是信号分析的两种方法:1 是将信号描述成时间的函数,2是将信号描述成频率的函数。也有用时域和频率联合起来表示信号的方法。时域、频域两种分析方法提供了不同的角度,它们提供的信息都是一样,只是在不同的时候分析起来哪个方便就用哪个。思考:原则上时域中只有一个信号波(时域的频率实际上是开关器件转动速度或时钟循环次数,时域中只有周期的概念),而对应频域(纯数学概念)则有多个频率分量。人们很容易认识到自己生活在 时域与空间域 之中(加起来构成了三维空间),所以比较好理解 时域的波原创 2022-04-18 18:30:09 · 943 阅读 · 0 评论 -
通俗讲解传统语音识别过程(MFCC-GMM-HMM-LM范式)
有个这个图,正着算,反着回溯,也就都可以了。对于机器来说,开始并不知道这两句话对应的具体文本是什么,于是我们使用GMM进行聚类,分成ABCD四类(当然我们从上帝视角知道,ABCD依次对应我,爱,恨,你)。提取以后就变成下面这些类似扑克牌的方块,让我们跟着发音顺序来想象,这两段音频前面一部分的特征序列,代表的是“我”,中间是“爱/恨”,末尾是“你”。语言模型的本质,是一种约束。像HMM和GMM都是隐变量模型,这种模型麻烦在哪里呢,一般都会有很多的变量,而且隐变量和模型参数互相影响,扯不清,缠缠绵绵到天涯牵。原创 2024-02-14 23:12:11 · 152 阅读 · 0 评论 -
对抗学习总结:FGSM->FGM->PGD->FreeAT, YOPO ->FreeLb->SMART->LookAhead->VAT
PGD虽不复杂,但因其两次保存/恢复操作容易搞晕——应注意的是,在K步for循环的最后一步,恢复的是梯度,因为我们要在原始梯度上进行梯度更新,更新的幅度即”累加了K次扰动的embedding权重所对应的梯度“;对于每个样本,FGSM和FGM都只用计算两次,一次是计算x的前后向,一次是计算x+r的前后向。FreeLB指出,FreeAT的问题在于每次的r对于当前的参数都是次优的(无法最大化loss),因为当前r是由r(t-1)和theta(t-1)计算出来的,是对于theta(t-1)的最优。原创 2024-01-03 01:09:25 · 1276 阅读 · 0 评论 -
Zipformer 模型解析
令 �(�) 为我们想要优化的 loss 函数,它对参数 � 是可导的。在每个步骤 �,Adam 计算参数梯度 ��=∇��(��−1),并更新梯度的一阶动量 ��=�1⋅��−1+(1−�1)⋅�� 和二阶动量 ��=�2⋅��−1+(1−�2)⋅��2,此处, �1,�2∈[0,1) 表示控制动量更新的系数。模块的输出为 ������(�⊙���������(���ℎ(�)⊙�)),⊙ 表示点乘,��������� 表示利用一个注意力头的权重对不同帧汇聚,������ 负责恢复特征的维度。原创 2024-01-03 01:08:33 · 1346 阅读 · 0 评论 -
说话人识别中的数据预处理和数据增强
解决方案是:利用源领域的语音和文本数据,合成目标领域的语音数据。合成的数据并不是真正的目标领域数据,而是一种近似(Proxy)数据。增强和时域增强,提高了录音设备和声学环境的多样性。那么对于说话人和文本的多样性,就需要用到语音合成增强方法。语音合成增强的核心在于,利用多说话人语音合成模型,输入说话人嵌入码和文本内容,就能合成对应的语音。关于多说话人语音合成模型,可参考。原创 2024-01-03 01:07:24 · 1000 阅读 · 0 评论 -
请查收使用OpenAI的Whisper进行语音识别的攻略
Whisper是一种令人激动的新型语言模型,采用了全新的语音识别方法,即使是低质量的音频,Whisper也能产生高质量的结果,并且对各种声音和语言的适应性极强,无需进行微调。Whisper是开源的,有一系列可用的模型尺寸,可以作为众多语音转文字应用的有效解决方案,包括翻译、智能个人助理、车辆语音控制系统、客户服务运营等等。原创 2024-01-03 01:05:59 · 1771 阅读 · 1 评论 -
音频-特征提取:①幅度谱(短时傅里叶变换谱/STFT)、②梅尔频谱(mel-spectrogram)、③梅尔倒谱(MFCC)【在梅尔频谱上取对数,做DCT(离散余弦变换)变换,得梅尔倒谱】
给定原始的音频信号,通过melspectrogram()函数提取梅尔频谱,然后通过DCT离散余弦变换得到梅尔倒谱系数。Mel滤波器对应了频率提高之后人耳会迟钝的客观规律,所以Mel滤波器在人声的信号处理上有着广泛的使用,但是如果应用到非人声上,就会丢失很多高频信息。输入语音信号->预加重->分针->加窗->FFT(傅里叶变换)->Mel滤波器->对数运算->DCT(离散预先变换)->MFCC。这是MFCC(梅尔倒谱)的提取过程,而梅尔频谱则是经过Mel滤波器就直接输出的一个结果。..............原创 2022-07-16 00:43:40 · 4045 阅读 · 1 评论 -
声纹技术(一):声纹技术的前世今生
说起“指纹”,大家都不会感到陌生。中国是世界上公认最早使用指纹的国家,自3000 多年前的西周起,便有在公文、契约上画押按指印的做法。在许多警匪、侦探小说里,我们可以了解到,通过指纹来锁定犯罪嫌疑人,属于最基本的破案手段之一。我们出国旅行的时候,若是需要办理其他国家的签证,往往也会被要求去大使馆内进行指纹扫描。而现在的大多数智能手机,更是选择将指纹解锁作为其默认的解锁方式。毫不夸张地说,指纹识别技术,早已普及到我们每个人的身边。而指纹技术之所以能够得到如此广泛的利用,其根本原因,在于一个重要的事实,那就是—原创 2022-06-24 21:39:29 · 988 阅读 · 0 评论 -
声纹技术(二):音频信号处理基础【模拟信号(连续)--采样-->数字信号(离散)--量化-->振幅简化为整数--编码-->二进制序列】【WAV音频格式】【SoX】【分帧-加窗-】
在前面的章节里我们就提到过,从学科分类上讲,声纹技术是语音信号处理的一个分支,而语音信号处理则属于音频信号处理这个大类。语音信号和音频信号,这二者的区别在于,前者专指人类说话时所发出的具有社会意义的声音,而后者则泛指人类能够听到的一切声音。例如乐器发出的声音,动物发出的声音,汽车发动机发出的声音,以及人们打鼾、打喷嚏、咳嗽时发出的声音,这些都属于广义上的音频信号,但它们并不属于语音信号,所以通常也不在声纹技术研究的范畴内。音频信号处理中的许多基础概念与知识,对于学习声纹技术来说是至关重要的。任何声纹系统,无原创 2022-06-24 21:29:50 · 2273 阅读 · 0 评论 -
声纹技术(三):声纹识别技术
广义上讲,声纹技术是一个宽泛的概念,其包含了许多不同的技术及应用。在所有这些技术中,声纹识别技术是其他技术的基础。无论是第5 章将要介绍的声纹分割聚类技术,还是第6 章将要介绍的基于声纹的语音合成、人声分离及语音活动检测等,都离不开与声纹识别模型的协同工作,其中的声纹识别模型既可以是事先预训练好的(pre-trained),也可以是联合训练(joint training)得到的。因此,本章也是本书最重要、最核心的章节。声纹识别,也称为说话人识别,在英文中对应若干种说法,例如voice recognition原创 2022-06-24 21:33:02 · 3380 阅读 · 0 评论 -
声纹技术(四):声纹识别的工程部署
对学术界而言,通过训练数据,利用特定算法训练出一组声纹识别模型,并在测试数据上验证其性能——这些工作加在一起,足以构成一个完整的研究项目。如果在数据处理或者训练算法上再有一些创新或者改动,并加入一些其他方法进行对比的实验结果,那么这项工作足以写成一篇内容丰富的研究论文,发表在学术会议或期刊上。不过,对业界而言,拥有一个性能不错的声纹识别模型,仅仅是万里长征的第一步。要将声纹识别技术部署到实际好用的产品中,还有着无数的工程问题需要解决,例如系统的架构、模型的发布、软件的维护,以及用户与产品之间的交互,等等。本原创 2022-06-24 21:34:45 · 966 阅读 · 0 评论 -
声纹技术(五):声纹分割聚类技术
声纹分割聚类(speaker diarization)是声纹领域里仅次于声纹识别的第二大课题,其难度远大于声纹识别。声纹识别所解决的问题可以简单概括为——“这是谁说的”,而这其中便包含了一个假设,那就是已知待识别的语音中,有且仅有一个说话人的声音。而在声纹分割聚类问题中,我们却推翻了这个假设,也就是说,一段语音中可以包含多个说话人交替说话的声音。因此,声纹分割聚类所解决的问题可以概括为——“谁在什么时间说的”(who spoke when)。英文中diarization 一词,来源于单词diary,也就是日原创 2022-06-24 21:36:10 · 2208 阅读 · 2 评论 -
声纹技术(六):声纹技术的其他应用
前面几章介绍的声纹识别与声纹分割聚类都属于声纹技术在音频信号处理中的最直接的应用。而除了这些直接应用,由于声纹本身包含着与说话人身份相关的信息,其在其他领域也能发挥出重要作用。声纹信息在其他领域中发挥作用有很多种方式,其中一种比较经典的架构便是通过声纹嵌入码,将特定说话人的身份信息,作为该领域传统模型的辅助输入,融合到模型的训练过程中,如图6.1 所示。该架构中的辅助音频,来自该任务所对应的具体说话人。而基于从该辅助音频中提取的声纹嵌入码,能够让传统模型更精准地针对该说话人完成相应的任务。这里的声纹编码器可原创 2022-06-24 21:37:14 · 1047 阅读 · 0 评论 -
声纹技术(七):声纹技术的未来
第3 章~第6 章介绍了声纹技术的主要应用,包括声纹识别、声纹分割聚类,以及基于声纹的语音识别、语音合成、语音检测、人声分离等。这些应用很多都经历过数年甚至数十年的发展,已经变得十分成熟,并且被部署到了许多商业级别的系统、产品及服务中。本章将眼光投向更长远的未来。首先,讨论现有声纹技术所面临的诸多挑战。然后,探讨未来的声纹系统如何解决其对数据的海量需求,并介绍一些声纹领域新兴的研究方向。在这些研究方向中,包含了目前还不够成熟,但可能会在未来得到普及的应用。从事过声纹领域研究的人员大概都会有这样的经历,在某一原创 2022-06-24 21:38:05 · 822 阅读 · 0 评论 -
音频分类-有监督-案例01:ESC-50 audio classification
音频分类-有监督-案例01ESC-50audioclassification。原创 2022-07-15 00:01:05 · 711 阅读 · 1 评论 -
声纹模型-2020:ECAPA-TDNN
声纹识别是指利用声音特征对说话人的身份进行识别的生物识别技术,已有几十年的发展历史,但直到深度学习兴起之后才开始广泛应用。目前声纹识别系统基本都是基于深度学习的方法,比如d-vector, x-vector, ResNet等,本文主要介绍主流的声纹识别模型Emphasized Channel Attention, Propagation and Aggregation in time delay neural network Based Speaker Verification(ECAPA-TDNN)。原创 2022-11-09 18:51:24 · 2799 阅读 · 0 评论 -
睡眠音频分割及识别问题(四)--YAMNet简介
YAMNet模型是在 AudioSet 数据集(一个大型音频、视频数据集)上训练的音频事件。原创 2023-01-24 10:46:37 · 422 阅读 · 0 评论 -
Mel滤波器组_原理简介
耳蜗实质上的作用相当于一个滤波器组,耳蜗的滤波作用是在对数频率尺度上进行的,在1000HZ以下为线性尺度,1K HZ以上为对数尺度,使得人耳对低频信号敏感,高频信号不敏感;人耳朵具有特殊的功能,可以使得人耳朵在嘈杂的环境中,以及各种变异情况下仍能正常的分辨出各种语音;所以,Mel滤波器组的在靠近低频出越密集,越靠近高频出,滤波器越稀疏;也就是说,当初产生这种机制主要是为了模拟,人耳朵的听觉机制;根据这一原则,从而研制出来了Mel频率滤波器组,为什么会产生出Mel 这种尺度的机制呢?其中,耳蜗有关键作用;原创 2022-10-28 15:29:10 · 509 阅读 · 0 评论 -
语音信号处理-第三方库:librosa、nnAudio、torchAudio三者的差异
python可以使用的语音处理第三方库一览图如果你只是使用pytorch, 需要关注nnAudio, torchAudio, librosa这三个模块,如上所示,nnAudio有很多优点,它是使用一维卷积实现的一个库,但是一些常用的功能,比如音频加载,谱图显示,幅度转为DB等它都没有,很多时候,还是要使用librosa配合。原创 2022-09-13 23:03:56 · 823 阅读 · 0 评论 -
语音信号处理:分帧【从宏观上看,帧长必须足够短来保证帧内信号是平稳的】【从微观上来看,帧长又必须包括足够多的振动周期】
图中,每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。图中,每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。「精细结构」就是蓝线上的一个个小峰,它们在横轴上的间距就是基频,它体现了语音的音高——峰越稀疏,基频越高,音高也越高。这样,我们就知道了帧长一般取为 20 ~ 50 毫秒,20、25、30、40、50 都是比较常用的数值,甚至还有人用 32(在程序猿眼里,这是一个比较「整」的数字)。原创 2022-08-31 23:21:22 · 1242 阅读 · 0 评论 -
语音信号处理-基本概念(一):音频长度(s)、采样率(Hz;如16000)、帧长(25ms)、帧数、帧移(12.5ms)、hop_size(每帧移动的样本点数=16000*12.5/1000=200)
需要明白一点,mel帧数 * 帧移 = 音频长度(采样点个数,可换算为音频时长,具体怎么做不用说了吧)因此,对于22050采样率, hopsize大小设置为256, 那么对应的mel-spectrogram需要上采样 256倍如果是16000采样率呢?使用帧长是50ms,帧移 12.5ms 那么hop_size就是200(16000*12.5/1000=200)啦,所以上采样倍数就是200倍啦.......原创 2022-08-29 22:42:22 · 7713 阅读 · 0 评论 -
语音信号处理-基本概念(二):音频通道数、采样频率、采样位数、采样个数(样本数)、一帧音频的大小、每秒播放的音频字节大小、一帧的播放时长、音频重采样
从我自己的理解来看,固定AAC为1024,MP3为1152肯定是有道理的,从一帧音频帧的播放时长中就可以看出,范围在21ms,24ms,26ms范围左右,而视频一帧的时长一般是40ms,人体对图片变化的感知也在20-60ms内感知良好,所以个人认为采样数固定,是在考虑人眼,与音视频同步的方便程度,音频压缩的质量等方面因素后,最终确定下来的采样数。即10 x 2 = 20。对于采样频率,采样频率是一秒采样的个数,例如48000HZ,每秒采样个数为48000,44100HZ,每秒采样个数为44100。...原创 2022-08-30 21:22:22 · 2191 阅读 · 0 评论 -
语音信号处理-基础(一):声学基础知识
音叉振动时,激励周围空气质点振动,产生一个压强波动叠加在大气压上。由于空气具有可压缩性,在质点的相互作用下,不断地交替产生压缩与膨胀,并且逐渐向外传播。声波的传播方式不是物质的移动, 而是能量的传播。 质点并不会随声波向前扩散,而仅在原来的平衡位置附近振动,靠质点之间的相互作用影响邻近质点的振动,从而向四周传播能量,形成波动。声波可以在弹性介质中传播,不能在真空中传播。声波也分为周期性声波和非周期性声波,最简单的周期声波是单频的声波,也称为纯音。它是由简谐振动产生的频率固定、并按正弦变化的声波。A0A_0原创 2022-06-29 00:11:29 · 774 阅读 · 0 评论 -
语音信号处理-基础(二): 发声生理、听觉生理与听觉心理
喉部的声带是对发音影响很大的器官。声带的声学功能是为语音提供主要的激励源;由声带震动产生声音,是形成声音的基本声源。声带开启和闭合使气流形成一系列脉冲,每开启和闭合一次的时间即振动周期称为基音周期,其倒数称之为基音频率。取决于声带的尺寸和特性,也决定于它所受的张力。声带震动的频率即基频决定了声音的高低,频率快则音调高,频率慢则音调低。基音的范围约为 80-500HZ 左右,它随发音人的性别、年龄即具体情况而定,老年男性偏低,小孩和青年女性偏高。语音就是人类调节呼吸器官所产生的气流通过发音器官发出来的声音。气原创 2022-06-29 21:56:49 · 1032 阅读 · 1 评论 -
语音信号处理-基础(三):语音信号分析【连续的“模拟信号”--采样、量化、编码-->离散的“数字信号”】
对于一个纯音来讲, 纯音信号只有一个频率,通过计算就可得到它的频率、相位和幅值。自然界中纯音很少见,大多数声音都是复合音,即一个声音中包含若干种频率成分的分音。当我们想对声音进行处理的时候,从它们的时域波形去分析,发现很难进行。每一个纯音都对应了固定的频率,从频率的角度对信号进行分析,原本复杂的信号就变得清晰起来。音频是我们对音乐最普遍的理解,一个随着时间变化的震动,是真实存在的,每一个细节都很生动,我们将其称之为时域。五线谱的音符是对音频的实体化,让时刻变动的音频能够固定成我们所认识的具象的符号。我们将原创 2022-06-29 22:16:12 · 774 阅读 · 1 评论 -
语音信号处理-基础(四):时域音频特征及Python实现
振幅包络线,就是将不同频率的振幅最高点连结起来形成的曲线。其 数学定义为:其中 指代时刻t的振幅包络, 为窗口的大小, 而 是该窗口下第k个样本的振幅。振幅包络线 可以告诉我们有关响度的大体情况, 而且对于异常值比较敏感, 常用于音频节奏检测(Onset Detection),和音乐类型分类(music genre classification)。接下来我们对比下古典音乐、摇滚、爵士三类音乐的振幅包络线。python分析语音数据有不少工具, 最为常用的应该是librosa。首先我们先导入相关packag原创 2022-06-29 22:27:09 · 1550 阅读 · 1 评论 -
语音信号处理-基础(五):傅立叶变换【离散傅里叶变换(DFT)、O(n^2)】【快速傅里叶变换(FFT)、O(nlogn)】、【短时傅里叶变换(STFT)】
eπi+1=0(1)e^{πi}+1=0 \tag{1} eπi+1=0(1)作为世界上第二伟大的数学公式(傅立叶变换位于第七),欧拉公式我们可以说都很熟悉。但是可能对于其代表的含义不太了解。 我们分析下欧拉公式,进而引出傅立叶变换。首先根据泰勒展开ex=1+x+12!x2+13!x3+⋯sin(x)=x−13!x3+15!x5+⋯cos(x)=1−12!x2+14!x4+⋯(2)\begin{aligned} &e^{x}=1+x+\frac{1}{2 !} x^{2}+\frac{1}{3 !} x原创 2022-06-29 22:35:59 · 1075 阅读 · 1 评论