6.1 声纹的力量
前面几章介绍的声纹识别与声纹分割聚类都属于声纹技术在音频信号处理中的最直接的应用。而除了这些直接应用,由于声纹本身包含着与说话人身份相关的信息,其在其他领域也能发挥出重要作用。
声纹信息在其他领域中发挥作用有很多种方式,其中一种比较经典的架构便是通过声纹嵌入码,将特定说话人的身份信息,作为该领域传统模型的辅助输入,融合到模型的训练过程中,如图6.1 所示。该架构中的辅助音频,来自该任务所对应的具体说话人。而基于从该辅助音频中提取的声纹嵌入码,能够让传统模型更精准地针对该说话人完成相应的任务。这里的声纹编码器可以采用第3 章介绍过的各种模型,不过现在一般都采用基于神经网络的声纹编码器。而架构中的输入与输出可以有很多种形式,既可以是音频,也可以是时频谱、文字、类别或其他信息,具体依应用而异。
