S. Umesh, L. Cohen, and D. Nelson [1999]: ``Fitting the Mel-Scale,'' Proc. IEEE International Conference on Acoust. Speech, Signal Processing, (ICASSP Phoenix, Arizona, USA), Vol. 1, pp. 217-220, March 1999. 读书笔记。
虽然在语音识别和语音编码中大量用到Mel刻度(Mel Scale也称为Mel域),但是国内鲜学者研究Mel刻度的由来。国外大概从1949年持续到本世纪的第一个十年还有这类文章发表。其历史大家可以粗略地参考WIKI有关Mel Scale 的说明。
今天要介绍的这篇文章讲述了一种新的Mel的描述方法。并且提出了新颖的观点:Mel Scale未必在1000Hz以下是线性的,它有可能是很多非线性函数的初始阶段;并且声称没有明显的证据表示Mel Scale应该分成线性部分和指数部分来描述。本人非常喜欢这篇文章的Mel拟合函数,因为及其简单而且无限阶可导,有简单的逆函数。
文章结构
1、介绍
介绍了一些拟合Mel刻度的历史。并且提出没有明显的证据表示Mel Scale应该分成线性部分和指数部分来描述。文章并没有使用Stevens 和Volkman 1940的经典论文表格中的点来做拟合,而是使用该论文频率刻度与Mel刻度关系图上的点来做拟合。
2、拟合曲线
拟合曲线的时候考虑三个频率范围,听力全屏40-12Khz;“线性区域”40-1Khz;“指数区域”1K-12Khz。同时文章提出使用具有更加简单公式:
来描述频率刻度和Mel刻度的关系。
3、有线性和指数区域?
作者分析了独立分析了“线性区域”40-1Khz和“指数区域”1K-12Khz不同拟合公式发现:可能并没有这两个区域。所谓的“线性区域”也许只是某些非线性函数的初始阶段。使用某些非线性函数(非指数函数)能够更好地拟合“指数区域”。
4、频率尺度
作者提出除了1940的数据精度有测量误差外,可能研究者需要根据确切的模型来描述人的听觉,以及产生Mel刻度的物理解释。
5、结论
(完)