语音识别(ASR)论文优选:全球最大的中英混合开源数据TALCS: An Open-Source Mandarin-English Code-Switching Corpus and a Speech

声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。

TALCS: An Open-Source Mandarin-English Code-Switching Corpus and a Speech Recognition Baseline

本文是好未来在2022.06.27更新的文章,主要开源最大的中英混合训练语料,为语音识别的Code-switching方向研究做贡献。


(开源数据统计可参见http://yqli.tech/page/data.html)

由于本文主要工作是开源全球最大的中英混合数据,我们就不再介绍背景,直接查看数据集的情况​。该数据集为好未来英语课授课音频,包含中英文混合讲话的情况,每条音频只有一位说话人,该数据集有100多说话人。(文件63.36G)该数据包含了如图1所示的句内和句间混合的样例。该数据中的中文汉字和英文单词之间的比例为13:1,其中top 20如图​2所示。table 1展示了语库的训练集合测试集的划分情况,table 2展示使用该数据集在espnet和wenet上的实验结果。

数据规模587小时音频
采样率16KHz
采样位声16bit
录制设备普通麦克风
说话人200+
录制时间2019年
数据格式音频:.wav;标注结果:.txt
音频长度1~60s
数据类型英语课教师授课音频

<think> 嗯,用户需要了解如何在PaddleSpeech中修改模型默认下载位置。这个问题很实用,因为模型文件通常很大,默认下载到C盘容易导致空间不足。 用户提供的引用信息非常完整,特别是引用[2]和[4]直接相关。引用[4]明确提到可以使用环境变量PPSPEECH_HOME来修改存储路径,这是最关键的解决方案。用户可能已经尝试过默认安装,发现C盘空间被占用,所以需要转移存储位置。 考虑到用户可能是开发者,应该提供两种主流操作系统的设置方法:Windows和Linux。Windows用户可以通过系统属性设置环境变量,Linux用户则可以直接在终端导出。示例代码需要区分OS模块的使用方式,因为Windows和Linux的环境变量语法不同。 用户没有说明具体操作系统,所以要把两种方案都列出来。同时要注意提醒设置后重启终端使环境变量生效,这个细节很容易被忽略。 引用[3]提到修改配置文件的方法,但环境变量方案更通用,应该作为主要推荐。不过可以补充说明如果用户遇到模型路径找不到的情况,可能需要检查model.yaml文件中的spm_model_prefix路径,这是引用[2]提到的额外要点。 最后准备三个相关问题:模型手动下载方法、配置文件修改细节、混合语音识别模型的使用场景。这些问题都是用户后续可能遇到的延伸需求,特别是混合模型配置对开发者应该很有帮助。 </think> 根据引用内容,在PaddleSpeech中修改模型默认位置有以下两种方法: ### 方法一:设置环境变量(推荐) 通过设置环境变量 `PPSPEECH_HOME` 指定模型存储路径: ```python import os # Windows系统示例(路径需存在) os.environ["PPSPEECH_HOME"] = "D:/PaddleSpeech_Models" # Linux/MacOS系统示例 os.environ["PPSPEECH_HOME"] = "/home/username/paddlespeech_models" ``` **操作步骤**: 1. 创建目标目录(如 `D:\PaddleSpeech_Models`) 2. 在代码开头添加环境变量设置 3. 后续调用API时模型将自动下载到指定目录 > 此方法适用于所有PaddleSpeech模型(ASR/TTS等),且优先级最高[^4][^3] ### 方法二:修改模型配置文件(针对特定模型) 若需手动管理模型(如离线部署): ```python from paddlespeech.cli.asr import ASRExecutor asr = ASRExecutor() # 指定解压后的模型路径 result = asr( model='conformer_talcs', lang='zh_en', codeswitch=True, input='./audio.wav', config='D:/models/conformer_talcs/model.yaml', # 替换路径 ckpt_path='D:/models/conformer_talcs/avg_10' # 去掉.pdparams后缀 ) ``` **关键点**: 1. 从[PaddleSpeech模型库](https://paddlespeech.bj.bcebos.com/zh/)手动下载模型 2. 解压至目标目录(如 `D:/models/`) 3. `config` 参数指向 `model.yaml` 文件 4. `ckpt_path` 指向模型文件前缀(不含 `.pdparams` 后缀)[^2] > ⚠️ 注意事项:若出现 `bpe_bpe_11297` 等文件缺失错误,需编辑 `model.yaml` 中的 `spm_model_prefix` 路径为实际位置[^2] --- ### 相关问题 1. **如何手动下载PaddleSpeech模型避免自动下载?** 需从[官方模型库](https://paddlespeech.bj.bcebos.com/zh/)选择对应模型压缩包,解压后通过`config`和`ckpt_path`参数指定路径[^2] 2. **修改`model.yaml`配置文件有哪些关键参数?** 除`spm_model_prefix`外,还需检查`mean_istd_path`(音频归一化文件)和`vocab_file`(词表)的路径准确性[^2] 3. **中英混合语音识别模型需要哪些特殊配置?** 需设置 `lang='zh_en'` 和 `codeswitch=True`,且必须使用支持混合识别的模型(如`conformer_talcs`)[^1]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值