一种基于STFT幅度重建相位的非迭代方法(2017)
摘要
提出了一种从幅度重建短时傅立叶变换 (STFT) 相位的非迭代方法。该方法基于相位的偏导数与未采样STFT相对于高斯窗口的幅度对数之间的直接关系。尽管该理论仅适用于连续设置,但实验表明,即使在使用采样高斯窗口、截断高斯窗口甚至其他紧凑支持的窗口(例如,汉窗。由于非迭代性质,该算法速度非常快,适用于长音频信号。此外,迭代相位重建算法的解决方案可以通过使用本算法提供的相位估计对其进行初始化来得到相当大的改进。我们以可重现的方式与最先进的算法进行了广泛的比较。
索引词 梯度定理,数值积分。
一、引言
几十年来,人们一直在积极研究相位检索问题。它最初是为傅立叶变换制定的形式 [1] 和后来的一般线性系统 [2]。在本文中,我们考虑了相位检索问题的一个特例; 通过在离散时间和频率点对 STFT 幅度进行采样获得的 Gabor 变换系数的幅度重建 [3]。在音频处理应用中需要一种有效的方法来重建相位,例如源分离和去噪 [4]、[5]、时间拉伸/音高移动 [6]、通道混合 [7] 和丢失数据插补 [ 8]. 许多作者已经解决了这个问题。
在迭代算法中,最广泛和最有影响力的是由 Griffin 和 Lim [9] (GLA) 引入的算法,它启发了几个扩展 [10]、[11] (FleGLA) 和 [12]、[13] (TFRTISI洛杉矶)。
有关基于 GLA 的算法的详细概述,我们建议读者参考以下工作:
Sturmel 和 Daudet [14]。 Decorsiere等人采用了不同的方法。 [15] (lBFGS)。他们将该问题表示为无约束优化问题,并使用有限内存 Broyden-Flatcher-Goldfarb-Shanno 算法对其进行求解。它也是一种迭代算法,单次迭代的计算成本与 GLA 相当。 其他方法基于将任务重新表述为凸优化问题 [16][19]。然而,问题的维度是正方形的,这使得它不适用于通常每秒包含数万个样本的长音频信号。埃尔达等人。 [20] 假设信号在原始域中是稀疏的,这在上述音频处理应用的上下文中是不现实的。 Bouvrie 和 Ezzat [21] 提出的一种方法基于求解每个时间帧的非线性方程组。作者建议使用迭代求解器并使用从先前帧获得的样本对其进行初始化。然而,该算法专门设计用于矩形窗口,已知该窗口具有较差的频率选择性。
在本文中,我们提出了一种称为相位梯度堆集成 (PGHI) 的非迭代算法。PGHI背后的理论至少自 1979 年以来就为人所知,当时 Portnoff [24] 提出了相位的偏导数与使用高斯窗口计算的 STFT 幅度对数之间的简单关系。给定用幅度梯度表示的相位梯度和给定一点的相位,可以调用梯度定理来积分并获得别处的相位。据我们所知,尚未发布此类算法。在我们之前的工作 [25] 中,我们提出了一种适用于实时设置的 PGHI 特例。本文侧重于提供完整的数学处理,并与离线设置中的其他算法进行彻底比较。上述算法 SPSI 和 PU 实际上与 PGHI 算法很接近,因为它们基本上都执行瞬时频率估计的简单积分,在 PU 的情况下还有局部群延迟,它们是 STFT 相位梯度的组成部分。然而,他们的方法无法估计每个时频位置的梯度,并且估计需要分析频谱图内容。
本着可重复研究的精神,算法的实现、音频示例、图形的彩色版本以及从这篇手稿中再现实验的脚本都可以在 http://ltfat.github.io/notes/040 免费获得。代码取决于我们的 Matlab/GNU Octave [26] 包 LTFAT [27]、[28] 和 PHASERET,分别位于 http://ltfat.github.io 和 http://ltfat.github.io/phaseret。
本文的结构如下。第二节总结了 STFT 和 Gabor 分析的必要理论,第三节介绍了所提出算法背后的理论,第四节包含了对数值算法的详细描述。最后,在第五节中,我们对所提出的算法进行了广泛的评估,并与使用高斯窗口、截
断高斯窗口、Hann 和 Hamming 窗口的迭代和非迭代最先进的算法进行了比较。
众所周知,迭代相位重建算法优化了一个非凸目标函数,因此,结果在很大程度上取决于初始相位估计。
C. 修改后的频谱图
相位重构算法的主要应用领域是从修改后的频谱图进行重构。频谱图在复值 STFT 域中进行了修改。 这可以通过乘法实现所谓的 Gabor 过滤器 [46][48] 或通过移动/复制内容来完成。通常,这种修改后的频谱图不再是有效的(一致[10])频谱图,即不存在具有这种频谱图的信号。因此,任务是构建而不是重新构建合适的阶段。不幸的是,目前尚不清楚方程式 (21) 和 (22) 对哪些频谱图进行了修改仍然成立,也不清楚如果不修改对性能有何影响。
六 结论
已经提出了一种用于从 STFT 幅度重建相位的新型非迭代算法。该算法计算效率高,其性能可与最先进的算法相媲美。它还可以为迭代算法提供合适的初始阶段。
作为未来的工作,研究是否可以为非高斯窗口找到类似于 (21) 和 (22) 的(简单)方程式将很有趣。此外,应该系统地探索混叠和频谱图修改对相位幅度关系的影响。为此,我们将把命题 1 扩展到更一般的环境。理想情况下,我们希望 α 调制帧 [50]、[51] 和扭曲的时频帧 [52]、[53] 也能得到类似的结果。 从实用的角度来看,所提出的算法的一个缺点是无法在实时设置中运行,即无法以逐帧方式处理音频数据流。显然,必须调整相位在系数之间的分布方式。这是在 [25] 中完成的,我们在其中提出了引入一个甚至零帧延迟的算法版本。此外,请注意等式 (21) 和 (22) 在“另一个方向”也成立;这意味着它们可用于估计给定相位的幅度。由于相位感知信号处理是一个有前途的研究领域 [54]、[55],因此该属性可能在许多应用中很有用。