语音半端到端嵌套命名实体识别研究
1. 数据集介绍
CNERTA 是一个大规模人工标注的中文多模态嵌套命名实体识别(NER)数据集,包含 42,987 个标注句子和 71 小时的语音数据。它基于 AISHELL - 1 数据集构建,该数据集是一个开源语音语料库,包含超过 170 小时的中文语音数据,常用于评估中文自动语音识别(ASR)系统的性能。CNERTA 涵盖了“金融”“科技”“体育”“娱乐”和“新闻”五个领域。
| 数据集划分 | 音频时长 | 平均句子长度 | 最大句子长度 | 嵌套命名实体比例 | 实例数量 | 实体数量 | ORG 数量 | PER 数量 | LOC 数量 |
|---|---|---|---|---|---|---|---|---|---|
| 训练集 | 56.68 h | 19.69 | 39 | 31.25% | 34,102 | 23,805 | 7,066 | 5,846 | 10,893 |
| 开发集 | 7.50 h | 19.77 | 44 |
超级会员免费看
订阅专栏 解锁全文
30

被折叠的 条评论
为什么被折叠?



