说话人日志(Speaker Diarization, SD)任务的目标是检测不同说话人的语音活动时间段,即回答“谁在什么时间说话了”这一问题。
传统的说话人日志系统,往往基于聚类算法实现,一般包括成如下步骤:(1)使用语音端点检测将原始音频切分成语音片段;(2)使用说话人嵌入码提取模型;(3)使用聚类方法,例如K-means等将属于同个说话人的音频片段分组到一起。然而,这些聚类方法往往是无监督的,无法直接最小化说话人日志错误,从而导致次优结果。尽管之后也有一些有监督的聚类方法被提出,但是,不管是无监督还是有监督的聚类方法,它们都假设了每个语音片段只会对应单个说话人,因此无法解决混叠语音问题。
为了处理混叠语音,基于神经网络的端到端说话人日志方法(end-to-end neural diariza- tion ,EEND)将说话人日志重新定义成一个多标签分类问题,从而能直接优化说话人日志错误,并且拥有处理混叠语音的能力。进一步地,基于编解码结构的吸引子模型(encoder-decoder based attractor,EDA)被引入到EEND中,用于适配说话人数量不固定的情况。在此基础之上,也有一些二阶段的方法别提出,用于进一步提升说话人日志性能。
近期,阿里巴巴达摩院语音实验室的论文“TOLD: A NOVEL TWO-STAGE OVERLAP-AWARE FRAMEWORK FOR SPEAKER DIARIZATION”被ICASSP 2023 接收。该论文是达摩院语音实验室在说话人日志方向的最新成果,是对“如何显式建模混叠语音”这一问题的研究探索。
论文相关代码,已在达摩院语音实验室的代码仓库 FunASR 进行开源。

论文题目:TOLD: A NOVEL TWO-STAGE OVERLAP-AWARE FRAMEWORK FOR SPEAKER DIARIZATION
作者:王嘉明,杜志浩,张仕良
论文地址:https://arxiv.org/abs/2303.05397

本文围绕说话人日志任务展开,传统聚类方法无法解决混叠语音问题。达摩院提出两阶段说话人日志框架TOLD,包含端到端模型EEND - OLA和后处理模型SOAP。在CALLHOME数据集验证其有效性,TOLD取得新最优结果,未来将增加自适应粒度建模方式。
最低0.47元/天 解锁文章
5409

被折叠的 条评论
为什么被折叠?



