Fisher Spanish数据集介绍，官网编号LDC2010S01、LDC2010T04

LDC语料小助手

于 2024-07-18 15:50:20 发布

阅读量433

点赞数 5

文章标签： python 语音识别人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/2401_82807501/article/details/140525110

版权

Fisher Spanish数据集是一个重要的语音数据集，主要用于支持语音识别和语言理解等任务的研究。以下是对Fisher Spanish数据集的详细介绍：

一、基本信息

来源：Fisher Spanish数据集是由Linguistic Data Consortium (LDC) 开发的，作为Fisher电话对话收集协议的一部分。
目的：该数据集旨在解决开发人员构建强大的自动语音识别(ASR)系统时的关键需求。

二、数据内容

类型：Fisher Spanish数据集包含大量的电话对话语音数据，这些数据是在真实电话通话中收集的。
规模：数据集包含819次转录对话，内容涉及各种提供的主题，主要是在陌生人之间进行的。这些对话产生了大约160小时的在发音级别对齐的语音数据，包含约150万个token。
特点：Fisher Spanish数据集的特点在于其包含的语音数据具有高度的真实性和多样性，能够反映实际电话通话中的语音情况。

三、应用场景

语音识别：Fisher Spanish数据集是训练、验证和测试针对西班牙语的语音识别系统的重要资源。
语言理解：由于数据集中包含丰富的对话内容，它也被用于支持语言理解任务的研究。

四、与其他数据集的关联

Fisher and CALLHOME Spanish-English Speech Translation：Fisher Spanish数据集与CALLHOME Spanish语料库结合，形成了Fisher and CALLHOME Spanish-English Speech Translation数据集。该数据集不仅包含西班牙语音频和转录，还提供了英语参考翻译和语音识别器各种形式的输出，为语音翻译研究提供了宝贵的资源。

NLP语料共享、LDC语料https://mp.weixin.qq.com/s/8GgZFh9XAr7FYwivQ_ajRg

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。