语音翻译常用数据集

本文介绍了三个常用的语音翻译数据集:Fisher and CALLHOME Spanish-English Speech Translation、Multilingual Speech Translation Corpus (MuST-C) 和 Europarl-ST。每个数据集的来源、特点、规模以及相关研究文章都有详细说明,涵盖了多语言、大规模的特点,适用于训练和评估语音翻译系统。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

语音翻译常用数据集

  1. Fisher and CALLHOME Spanish-English Speech Translation

【基本信息】

Fisher and CALLHOME Spanish-English Speech Translation数据集是由约翰霍普金斯大学开发的,包含英语参考翻译和语音识别器各种形式的输出,补充了LDC Fisher Spanish (LDC2010T04) 和CALLHOME Spanish音频和转录版本 (LDC96T17)。两者一起组成了一个四向平行的数据集,包括西班牙语音频、转录、语音识别词图(ASR lattices)和大约38小时的语音的英文翻译。

源数据是由LDC开发的Fisher Spanish和CALLOME Spanish语料库,包括各种方言的(主要是母语)西班牙语使用者之间转录的电话对话。Fisher Spanish数据集包含 819 次转录对话,内容涉及各种提供的主题,主要是在陌生人之间,产生大约160小时的在发音级别对齐语音,包含150万个token。CALLHOME Spanish语料库包括120份主要是朋友和家人之间自发对话的转录,产生了大约20小时的在发音级别对齐语音,转录文本仅超过20万个token。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值