音频特征（2）：时域图、频谱图、语谱图（时频谱图）

原创已于 2022-02-20 20:53:05 修改 · 9.1w 阅读

180

976 ·

CC 4.0 BY-SA版权

文章标签：

#音视频 #语音识别 #算法

于 2020-10-21 17:37:07 首次发布

声纹同时被 3 个专栏收录

37 篇文章

订阅专栏

项目相关

37 篇文章

订阅专栏

图像、视频处理

16 篇文章

订阅专栏

本文深入探讨了信号处理中的时域与时频域的概念及其相互转换，包括时域波形与频域谱线的区别，以及如何利用傅里叶变换揭示信号的频率特性。

文章目录

时域和频域
1. 概述
2.（时域）波形和频域：用几张对比图来区分
- 2.1 时域和频域
- 2.2 区分：时频谱图（语谱图）

傅里叶变换的典型用途是将信号分解成频率谱——显示与频率对应的幅值大小 。

时域和频域

1. 概述

（1）什么是信号的时域和频域？
时域和频域是信号的基本性质，用来分析信号的 不同角度 称为域，一般来说，时域的表示较为形象与直观，频域分析则更为简练，剖析问题更为深刻和方便。目前，信号分析的趋势是从时域向频域发展。然而，它们是互相联系，缺一不可，相辅相成的。
（2）时频域的关系是什么？
时域分析与频域分析是对模拟信号的两个观察面。对信号进行时域分析时，有时一些信号的时域参数相同，但并不能说明信号就完全相同。因为信号不仅随时间变化，还与频率、相位等信息有关，这就需要进一步分析信号的频率结构，并在频率域中对信号进行描述。动态信号从时间域变换到频率域主要通过傅立叶级数和傅立叶变换实现。周期信号的变换采用傅立叶级数，非周期信号的变换采用傅立叶变换。
（3）信号的时域和频域表达方式各有什么特点？

我们描述信号的方式有时域和频域两种方式，时域是描述数学函数或物理信号对时间的关系，而频域是描述信号在频率方面特性时用到的一种坐标系，简单来说，横坐标一个是时间，一个是频率。
一般正弦信号可由幅值、频率、相位三个基本特征值就可以唯一确定。但对于两个形状相似的非正弦波形，从时域角度，很难看出两个信号之间的本质区别，这就需要用到频域表达方式。

小结

时域：自变量是时间，即横轴是时间，纵轴是信号的变化（振幅）。其动态信号 $x (t)$ 是描述信号在不同时刻取值的函数。
频域：自变量是频率，即横轴是频率，纵轴是该频率信号的幅度（振幅），就是指的信号电压大小，也就是通常说的频谱图。

2.（时域）波形和频域：用几张对比图来区分

2.1 时域和频域

时域 vs 频域
时域波形、频域谱线

时域图：表现的是一段音频在一段时间内音量的变化，其横轴是时间方向，纵轴是振幅方向。

波形实质上是将各个频率的波形叠加在了一起（波形是由各频率不同幅值和相位的简单正弦波复合叠加得到的。）

频谱图：表现的是一段音频在某一时刻各个频率的音量的高低，其横轴是频率方向，纵轴为振幅方向。

将复合波形进行傅里叶变换，拆解还原成每个频率上单一的正弦波构成，相当于把二维的波形图往纸面方向拉伸，变成了三维的立体模型，而拉伸方向上的那根轴叫频率，现在从小到大每个频率点上都对应着一条不同幅值和相位的正弦波。

频谱则是在这个立体模型的频率轴方向上进行切片，丢去时间轴（即在每个时刻都可以拿刀在与时间轴垂直的方向上进行切片），形成以横坐标为频率，纵坐标为幅值的频谱图，表示的是一个静态的时间点上各频率正弦波的幅值大小的分布状况。
再说的直白一点，频谱就是为了找出一个波是由多少波复合而成的！

关于为什么是正弦波，可以查看之前的文章：从本质（信号分析角度）理解卷积

从下面的频谱图中可以得出这样的结论：

原始波由三个正弦波叠加而成；
横轴为这些正弦波分量的频率，纵轴为这些正弦波分量的振幅。

2.2 区分：时频谱图（语谱图）

语谱图：先将语音信号作傅里叶变换，然后以横轴为时间，纵轴为频率，用颜色表示幅值即可绘制出语谱图。在一幅图中表示信号的频率、幅度随时间的变化，故也称“时频图”。

在这里插入图片描述
如下面两张图分别为数字0-10的波形图和语谱图：

（1）数字0-10的波形图：
（2）数字0-10的语谱图：

在这里插入图片描述

附：

频宽、带宽、频带？
频带（frequency band）：对信号而言，频带就是信号包含的最高频率与最低频率这之间的频率范围(当然频率分量必须大于一定的值)。对信道而言，频带就是允许传送的信号的最高频率与允许传送的信号的最低频率这之间的频率范围(当然要考虑衰减必须在一定范围内)
频带宽度（band width）：简称带宽，有时称必要宽度，指为保证某种发射信息的速率和质量所需占用的频带宽度容许值，以赫（Hz）、千赫（KHz）、兆赫（MHz）表示。
注意区分：网络带宽，是指在单位时间能传输的数据量，亦即数据传输率。
宽带和窄带？
“窄”和“宽”是一个相对概念，并无严格数字界限，相对于什么呢？是指信道特性相对于信号特性。第一，什么叫宽带信号，“有待传输的信号”我们称为信源，信源是具备一定的频谱特征的。信源信号通常需要一个载波信号来调制它，才能发送到远方。信源信号带宽远小于载波中心频率的是窄带信号,反之，二者大小可比拟的称为宽带信号。
第二，实际通信中，分配给你的频带资源+真实的传播环境, 我们称之为信道。信道也具备一定的频谱特征。通常情况下，分配到的频带资源越宽，传播环境越稳定，信道能够承载的数据速率就越高。

更多参考：音色与声谱图——很详细的介绍

参考：

17 条评论

Young_Sink 2022.07.25
感谢博主，太好理解了
- Robin_Pi回复Young_Sink 2022.07.31
  谢谢！

鲸落南北qaq 2022.02.15
通俗易懂，比教科书好多了。
- Robin_Pi回复鲸落南北qaq 2022.02.16
  感谢你的鼓励，一起加油！

pioneer、 2021.11.18
请问博主有对应的代码吗，就是那种将I/Q信号通过DFT转为频谱数据
- pioneer、回复qq_28312011 2022.02.09
  我的是matlab将IQ信号转为频谱数据图
- qq_28312011回复pioneer、 2022.01.06
  兄弟，这块你解决了么，我也遇到了这个问题
- Robin_Pi回复pioneer、 2021.11.19
  抱歉，没有这方面资源

weixin_40282402 2021.10.21
看文章的时候发现有spectrotemporal features，请问这是什么意思呢？acoustic-phonetic features和spectrotemporal features有啥区别呢？
- Robin_Pi回复weixin_40282402 2021.10.22
  个人并不专这方面，只能粗略理解为声学特征和声谱特征的区别，建议你多读相关论文

ytuan 2021.05.11
我公司有语音识别需求，有高手愿意合作吗

世纪草稿 2021.04.13
请问能量谱和语谱图是同样的概念么
- Robin_Pi回复世纪草稿 2021.04.14
  能量是跟振幅直接相关的，是振幅的平方

weixin_43650642 2020.12.26
楼主，请问下（2）0-10数字的语谱图要用什么软件画，感谢
- Robin_Pi回复weixin_43650642 2020.12.30
  Matlab，你可以参考 https://www.cnblogs.com/hogli/p/5918199.html