ICASSP2023论文代码开源｜TOLD能对混叠语音建模的说话人日志框架

最新推荐文章于 2025-11-13 10:00:46 发布

原创

最新推荐文章于 2025-11-13 10:00:46 发布 · 873 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#开源

本文围绕说话人日志任务展开，传统聚类方法无法解决混叠语音问题。达摩院提出两阶段说话人日志框架TOLD，包含端到端模型EEND - OLA和后处理模型SOAP。在CALLHOME数据集验证其有效性，TOLD取得新最优结果，未来将增加自适应粒度建模方式。

说话人日志（Speaker Diarization, SD）任务的目标是检测不同说话人的语音活动时间段，即回答“谁在什么时间说话了”这一问题。

传统的说话人日志系统，往往基于聚类算法实现，一般包括成如下步骤：（1）使用语音端点检测将原始音频切分成语音片段；（2）使用说话人嵌入码提取模型；（3）使用聚类方法，例如K-means等将属于同个说话人的音频片段分组到一起。然而，这些聚类方法往往是无监督的，无法直接最小化说话人日志错误，从而导致次优结果。尽管之后也有一些有监督的聚类方法被提出，但是，不管是无监督还是有监督的聚类方法，它们都假设了每个语音片段只会对应单个说话人，因此无法解决混叠语音问题。

为了处理混叠语音，基于神经网络的端到端说话人日志方法（end-to-end neural diariza- tion ，EEND）将说话人日志重新定义成一个多标签分类问题，从而能直接优化说话人日志错误，并且拥有处理混叠语音的能力。进一步地，基于编解码结构的吸引子模型（encoder-decoder based attractor，EDA）被引入到EEND中，用于适配说话人数量不固定的情况。在此基础之上，也有一些二阶段的方法别提出，用于进一步提升说话人日志性能。

近期，阿里巴巴达摩院语音实验室的论文“TOLD: A NOVEL TWO-STAGE OVERLAP-AWARE FRAMEWORK FOR SPEAKER DIARIZATION”被ICASSP 2023 接收。该论文是达摩院语音实验室在说话人日志方向的最新成果，是对“如何显式建模混叠语音”这一问题的研究探索。

论文相关代码，已在达摩院语音实验室的代码仓库 FunASR 进行开源。