基本概念
“aperiodicity” is defined as the power ratio between the speech signal and the aperiodic component of the signal
它是跟混合激励有关的参数,为了获得自然的声音,激励源不能只使用周期信号,也需要包含一些非周期信号。一种典型的非周期信号是噪音。
PLANTINUM[1]
使用excitation signal替换aperiodicity
X(ω)=Y(ω)H(ω)X(\omega)=\frac{Y(\omega)}{H(\omega)}X(ω)=H(ω)Y(ω)
首先根据F0标出voiced section,然后y2(t)y^2(t)y2(t)最大的点对应加窗的时间点,使用长度为2T02T_02T0的Hanning窗。
合成语音的时候直接使用求出的x(t)x(t)x(t)和h(t)h(t)h(t)进行卷积即可。
D4C[4]
D4C需要计算不同频带对应的功率比。
1.计算群延迟
τgω=−dϕ(ω)dω\tau_{g}{\omega}=-\frac{d\phi(\omega)}{d\omega}τgω=−dωdϕ(ω)
假设所加窗口的中心点在τ\tauτ,那么最后求出的群延迟τ(ω,τ)\tau(\omega, \tau)τ(ω,τ)跟τ\tauτ有关,使用了一些方法消除了参数τ\tauτ,也就是最后得到的群延迟跟窗口位置无关。
2.修正参数
上一步计算加窗会带来频谱上的失真(上图a),这里进行smooth恢复出来原始的信号。
τgs(ω)=2ω0∫−ω04ω04τg(ω+λ) dλ\tau_{gs}(\omega)=\frac{2}{\omega_0} \int_{-\frac{\omega_0}{4}}^{\frac{\omega_0}{4}} \tau_g(\omega+\lambda)\, \mathrm{d}\lambdaτgs(ω)=ω02∫−4ω04ω0τg(ω+λ)dλ
τgb(ω)=1ω0∫−ω02ω02τgs(ω+λ) dλ\tau_{gb}(\omega)=\frac{1}{\omega_0} \int_{-\frac{\omega_0}{2}}^{\frac{\omega_0}{2}} \tau_{gs}(\omega+\lambda)\, \mathrm{d}\lambdaτgb(ω)=ω01∫−2ω02ω0τgs(ω+λ)dλ
τD=τgs(ω)−τgb(ω)\tau_D=\tau_{gs}(\omega)-\tau_{gb}(\omega)τD=τgs(ω)−τgb(ω)
3.估计band-aperiodicity
中心频率ωc\omega_cωc对应的时域信号
p(t,ωc)=F−1[w(ω)τD(ω−(ωc−wl2))]p(t,\omega_c)=\mathscr{F}^{-1}[w(\omega)\tau_{D}(\omega-(\omega_c-\frac{w_l}{2}))]p(t,ωc)=F−1[w(ω)τD(ω−(ωc−2wl))]
wlw_lwl表示窗的长度
pc(t,ωc)=1−∫0tps(λ,ωc) dλp_c(t,\omega_c)=1-\int_{0}^{t} p_s(\lambda, \omega_c)\, \mathrm{d}\lambdapc(t,ωc)=1−∫0tps(λ,ωc)dλ
其中psp_sps是由功率谱∣p∣2|p|^2∣p∣2在时间上按降序排序得到,而且∣p∣2|p|^2∣p∣2做了归一化
band aperiodicity可得
ap(ωc)=−10log10(pc(2wbw,ωc))ap(\omega_c)=-10log_{10}(p_c(2w_{bw},\omega_c))ap(ωc)=−10log10(pc(2wbw,ωc))
wbww_{bw}wbw表示窗函数的主瓣宽度。
参考文献
[1].PLATINUM: A method to extract excitation signals for voice synthesis system
[2].D4C, a band-aperiodicity estimator for high-quality speech synthesis