相位重建算法在光学中的声学应用(2022)
摘要
振幅谱图的相位重建由于其在语音合成和增强中的潜在应用而在最近的声学中引起了人们的关注。声学中最著名的算法基于交替投影,称为 GriffinLim 算法 (GLA)。同时,GLA 在光学中被称为 GerchbergSaxton 算法,其许多变体已被独立于声学中的算法提出。
在本文中,我们建议将光学界开发的相位重建算法应用于声学应用,并使用声学指标对其进行评估。具体来说,我们建议将平均交替反射 (AAR)、松弛 AAR (RAAR) 和混合输入输出 (HIO) 算法应用于声学信号。我们的实验结果表明,RAAR 具有足够的声学应用潜力,因为它明显优于 GLA。
索引词:相位检索,短时傅里叶变换,Griffin–Lim 算法,交替投影,反射算子。
一、简介
相位重建是一种仅从其幅度恢复复值信号的技术[1]。由于其在语音合成 [25] 和增强[611] 中的潜在应用,它最近引起了声学领域的关注。此外,最近与深度神经网络的一些结合展示了相位重建在声学中的有前途的应用,包括声音合成 [12] 和音频修复 [13]。因此,研究一种新的相位重建算法对于扩展声学信号处理的可能性非常重要。在本文中,我们专注于仅从给定幅度恢复相位的迭代算法。
在迭代相位重建方法中,最著名和最受欢迎的算法是 GriffinLim 算法 (GLA) [1416]。
它是一种交替投影方法,每次迭代只需要计算短时傅立叶变换 (STFT) 和逆 STFT (ISTFT)。如果有 STFT 的工具箱,GLA 的实现将非常简单,这应该是它受欢迎的原因。但是,GLA 的性能并不出色,因此进行了多项改进。例如,快速 GLA(FGLA)应用了类似 Nesterov 的加速技术来加速 GLA [17]。为了实现 GLA [18]的改进版本,还应用了乘法器交替方向法 (ADMM)。这些算法成功地实现了良好的相位重建性能,同时在一定程度上保持了 GLA 的简单性。
独立于声学中的这些算法,在光学文献中已经提出了许多相位重建方法。在光学领域,与 GLA 类似的算法是著名的 Gerchberg–Saxton 算法,它是在 1970 年左右提出的[19],比 GLA 的提出早了 10 多年。从那时起,已经开发了许多算法 [17, 18]。一个有趣的方向是使用反射算子(或反射分解)代替算法的投影算子 [2025]。此类方法通常应该能够加速迭代算法,但据我们所知,它们尚未应用于声学信号。
在本文中,我们建议将光学界开发的相位重建算法应用于声学应用。我们选择了三种使用反射算子的典型算法:平均交替反射 (AAR) [20, 21]、松弛 AAR (RAAR) [22] 和混合输入输出 (HIO) [23–25] 算法。
根据声学指标对它们的性能进行了实验研究,以了解它们在声学方面的潜力。实验结果表明,RAAR 在各种条件下的平均表现更好,因此在声学方面很有前途。
5 结论
在本文中,我们建议将光学算法应用于声学相位重建。我们使用声学指标通过实验研究了它们的性能,发现 RAAR 在各种条件下都表现良好。由于包括 FGLA 中使用的加速技术在内的一些加速技术可能会提高 RAAR 的性能,因此在未来的工作中应研究这种用于实现快速且性能良好的算法的组合。