音频数据集大全(1)-语音识别篇

1、Llama3 中文化数据集

简介:Llama3 中文化数据集是为了提高Llama3模型在中文语境下的表现而专门设计和准备的数据集。数据集被处理成firefly格式,这意味着它们可以直接用于firefly框架的训练过程。数据集包含了清洗处理后的合并文件,如sft_zh_with_all.jsonl,它包含了约169万条过滤后的问答数据提供了多种下载方法,包括使用SDK和GIT克隆。SDK方法允许用户通过几行代码快速下载所需的数据集,而GIT方法则适用于希望直接从源代码仓库克隆数据集的用户

下载链接:https://github.com/CrazyBoyM/llama3-Chinese-chat

2、中文语音识别Aishell-1学术数据集

简介:希尔贝壳中文普通话开源语音数据库AISHELL-ASR0009-OS1录音时长178小时,是希尔贝壳中文普通话语音数据库AISHELL-ASR0009的一部分。AISHELL-ASR0009录音文本涉及智能家居、无人驾驶、工业生产等11个领域。录制过程在安静室内环境中, 同时使用3种不同设备: 高保真麦克风(44.1kHz,16-bit);Android系统手机(16kHz,16-bit);iOS系统手机(16kHz,16-bit)。高保真麦克风录制的音频降采样为16kH

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值