Magichub重口音对话ASR挑战赛发布基线系统和开发训练集

本文链接：https://blog.youkuaiyun.com/weixin_47718443/article/details/124992478

Magichub携手多方举办重口音对话语音识别挑战赛，已开放开发训练集，包括多轮普通话对话数据和重口音普通话对话数据。主办方提供基线系统，基于Kaldi构建，参赛者可选择Kaldi、WeNet、espnet、NeMo或PaddleSpeech等工具进行模型开发。挑战赛旨在推动重口音对话AI的创新发展。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

方言识别作为语音识别领域的难点之一，在中国这个人口众多、地域辽阔的市场，如何让机器更好的学习和理解人类复杂多变的方言，成为不少Machine Learning研究者和从业者面临的巨大挑战。同时，在智慧交通、智慧金融、智能家居等领域的众多企业都是以对话AI产品为核心，对话式AI成为众多企业的主要切入口之一。针对真实产业场景的刚性需求，本次挑战赛包含“重口音+对话”，希望与企业、机构及高校共同探索重口音对话AI领域的创新发展。

由 Magic Data (北京爱数智慧科技有限公司) 、中国科学院声学研究所、西北工业大学、上海交通大学、北京邮电大学主办，Magichub 开源社区、上海白玉兰开源开放研究院、OpenVINO中文社区、SegmentFault思否开发者社区、稀土掘金技术社区、示说网协办的“Magichub 重口音对话语音识别挑战赛”自开展以来已经收到四十多个来自各大高校和企业参赛队伍注册报名。2022年5月24日，主办方正式向参赛队伍开放开发训练集和基线系统。

开发训练集

主办方针对赛道“重口音对话场景下的语音识别（ASR）准确率”开放了以下训练数据集：

1、MagicData-RAMC 包括351组多轮普通话对话，时长共计180小时。每组对话的标注信息包括转录文本、语音活动时间戳、说话人信息、录制信息和话题信息。说话人信息包括了性别、年龄和地域，录制信息包括了环境和设备。请参赛者查看邮件进行数据集下载。

2、MagicData提供14小时的重口音普通话对话数据，同样该数据的标注信息包括转录文本、语音活动时间戳、说话人信息、录制信息、话题信息、录音环境和采集设备。其中说话人信息包括性别、年龄和地域。请参赛者查看邮件进行数据集下载。</