Fitting the Mel Scale笔记

本文是对S. Umesh等人1999年ICASSP会议上关于Mel Scale拟合的研究的读书笔记。文章挑战了Mel Scale的传统认知,认为在1000Hz以下可能是非线性的,并非通常理解的线性加指数结构。作者通过不同频率范围的拟合,提出更简单的公式描述Mel Scale,并质疑了‘线性区域’和‘指数区域’的概念,指出可能所有区域都是非线性函数的一部分。文章呼吁对听觉模型和Mel Scale的物理解释进行更精确的研究。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

S. Umesh, L. Cohen, and D. Nelson [1999]: ``Fitting the Mel-Scale,'' Proc. IEEE International Conference on Acoust. Speech, Signal Processing, (ICASSP Phoenix, Arizona, USA), Vol. 1, pp. 217-220, March 1999. 读书笔记。

虽然在语音识别和语音编码中大量用到Mel刻度(Mel Scale也称为Mel域),但是国内鲜学者研究Mel刻度的由来。国外大概从1949年持续到本世纪的第一个十年还有这类文章发表。其历史大家可以粗略地参考WIKI有关Mel Scale 的说明

今天要介绍的这篇文章讲述了一种新的Mel的描述方法。并且提出了新颖的观点:Mel Scale未必在1000Hz以下是线性的,它有可能是很多非线性函数的初始阶段;并且声称没有明显的证据表示Mel Scale应该分成线性部分和指数部分来描述。本人非常喜欢这篇文章的Mel拟合函数,因为及其简单而且无限阶可导,有简单的逆函数。

文章结构

1、介绍

介绍了一些拟合Mel刻度的历史。并且提出没有明显的证据表示Mel Scale应该分成线性部分和指数部分来描述。文章并没有使用Stevens 和Volkman 1940的经典论文表格中的点来做拟合,而是使用该论文频率刻度与Mel刻度关系图上的点来做拟合。

2、拟合曲线

拟合曲线的时候考虑三个频率范围,听力全屏40-12Khz;“线性区域”40-1Khz;“指数区域”1K-12Khz。同时文章提出使用具有更加简单公式:

来描述频率刻度和Mel刻度的关系。

3、有线性和指数区域?

作者分析了独立分析了“线性区域”40-1Khz和“指数区域”1K-12Khz不同拟合公式发现:可能并没有这两个区域。所谓的“线性区域”也许只是某些非线性函数的初始阶段。使用某些非线性函数(非指数函数)能够更好地拟合“指数区域”。

4、频率尺度

作者提出除了1940的数据精度有测量误差外,可能研究者需要根据确切的模型来描述人的听觉,以及产生Mel刻度的物理解释。

5、结论

(完)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值