Fitting the Mel Scale笔记

最新推荐文章于 2024-08-26 15:20:12 发布

灯等等凳

最新推荐文章于 2024-08-26 15:20:12 发布

阅读量2.1k

点赞数

CC 4.0 BY-SA版权

分类专栏：读书笔记文章标签： Mel域听觉滤波器心理声学读书笔记

本文链接：https://blog.youkuaiyun.com/ssdzdk/article/details/40392375

读书笔记专栏收录该内容

5 篇文章

订阅专栏

本文是对S. Umesh等人1999年ICASSP会议上关于Mel Scale拟合的研究的读书笔记。文章挑战了Mel Scale的传统认知，认为在1000Hz以下可能是非线性的，并非通常理解的线性加指数结构。作者通过不同频率范围的拟合，提出更简单的公式描述Mel Scale，并质疑了‘线性区域’和‘指数区域’的概念，指出可能所有区域都是非线性函数的一部分。文章呼吁对听觉模型和Mel Scale的物理解释进行更精确的研究。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

S. Umesh, L. Cohen, and D. Nelson [1999]: ``Fitting the Mel-Scale,'' Proc. IEEE International Conference on Acoust. Speech, Signal Processing, (ICASSP Phoenix, Arizona, USA), Vol. 1, pp. 217-220, March 1999. 读书笔记。

虽然在语音识别和语音编码中大量用到Mel刻度（Mel Scale也称为Mel域），但是国内鲜学者研究Mel刻度的由来。国外大概从1949年持续到本世纪的第一个十年还有这类文章发表。其历史大家可以粗略地参考WIKI有关Mel Scale 的说明。

今天要介绍的这篇文章讲述了一种新的Mel的描述方法。并且提出了新颖的观点：Mel Scale未必在1000Hz以下是线性的，它有可能是很多非线性函数的初始阶段；并且声称没有明显的证据表示Mel Scale应该分成线性部分和指数部分来描述。本人非常喜欢这篇文章的Mel拟合函数，因为及其简单而且无限阶可导，有简单的逆函数。

文章结构

1、介绍

介绍了一些拟合Mel刻度的历史。并且提出没有明显的证据表示Mel Scale应该分成线性部分和指数部分来描述。文章并没有使用Stevens 和Volkman 1940的经典论文表格中的点来做拟合，而是使用该论文频率刻度与Mel刻度关系图上的点来做拟合。

2、拟合曲线

拟合曲线的时候考虑三个频率范围，听力全屏40-12Khz；“线性区域”40-1Khz；“指数区域”1K-12Khz。同时文章提出使用具有更加简单公式：

$F_{Mel}=\frac{f}{af+b}$