相位重建算法在光学中的声学应用(2022)

相位重建算法在光学中的声学应用(2022)

摘要

振幅谱图的相位重建由于其在语音合成和增强中的潜在应用而在最近的声学中引起了人们的关注。声学中最著名的算法基于交替投影,称为  GriffinLim  算法  (GLA)。同时,GLA 在光学中被称为  GerchbergSaxton  算法其许多变体已被独立于声学中的算法提出

在本文中,我们建议将光学界开发的相位重建算法应用于声学应用,并使用声学指标对其进行评估。具体来说,我们建议将平均交替反射  (AAR)、松弛  AAR  (RAAR)  和混合输入输出  (HIO)  算法应用于声学信号。我们的实验结果表明,RAAR  具有足够的声学应用潜力,因为它明显优于  GLA。

索引词:相位检索,短时傅里叶变换,Griffin–Lim  算法,交替投影,反射算子。

一、简介

相位重建是一种仅从其幅度恢复复值信号的技术[1]。由于其在语音合成  [25]  和增强[611]  中的潜在应用,它最近引起了声学领域的关注。此外,最近与深度神经网络的一些结合展示了相位重建在声学中的有前途的应用,包括声音合成  [12]  和音频修复  [13]。因此,研究一种新的相位重建算法对于扩展声学信号处理的可能性非常重要。在本文中,我们专注于仅从给定幅度恢复相位的迭代算法

迭代相位重建方法中,最著名和最受欢迎的算法是  GriffinLim  算法  (GLA) [1416]。

它是一种交替投影方法,每次迭代只需要计算短时傅立叶变换  (STFT)  和逆  STFT (ISTFT)。如果有  STFT  的工具箱,GLA  的实现将非常简单,这应该是它受欢迎的原因。但是,GLA  的性能并不出色,因此进行了多项改进。例如,快速  GLA(FGLA)应用了类似 Nesterov  的加速技术来加速  GLA  [17]。为了实现  GLA [18]的改进版本,还应用了乘法器交替方向法  (ADMM)。这些算法成功地实现了良好的相位重建性能,同时在一定程度上保持了  GLA  的简单性。

独立于声学中的这些算法,在光学文献中已经提出了许多相位重建方法。在光学领域,与  GLA  类似的算法是著名的  Gerchberg–Saxton  算法,它是在  1970  年左右提出的[19],比  GLA  的提出早了  10  多年。从那时起,已经开发了许多算法  [17,  18]。一个有趣的方向是使用反射算子(或反射分解)代替算法的投影算子  [2025]。此类方法通常应该能够加速迭代算法,但据我们所知,它们尚未应用于声学信号。

在本文中,我们建议将光学界开发的相位重建算法应用于声学应用我们选择了三种使用反射算子的典型算法:平均交替反射  (AAR)  [20,  21]、松弛  AAR (RAAR)  [22]  和混合输入输出  (HIO)  [23–25]  算法。

根据声学指标对它们的性能进行了实验研究,以了解它们在声学方面的潜力。实验结果表明,RAAR  在各种条件下的平均表现更好,因此在声学方面很有前途。

5 结论

在本文中,我们建议将光学算法应用于声学相位重建。我们使用声学指标通过实验研究了它们的性能,发现  RAAR  在各种条件下都表现良好。由于包括  FGLA  中使用的加速技术在内的一些加速技术可能会提高  RAAR  的性能,因此在未来的工作中应研究这种用于实现快速且性能良好的算法的组合。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值