音频数据集大全（1）-语音识别篇

最新推荐文章于 2025-04-21 14:10:52 发布

robinfang2019

最新推荐文章于 2025-04-21 14:10:52 发布

阅读量3.2k

点赞数 31

文章标签：音视频语音识别人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/robinfang2019/article/details/138525543

版权

1、Llama3 中文化数据集

简介：Llama3 中文化数据集是为了提高Llama3模型在中文语境下的表现而专门设计和准备的数据集。数据集被处理成firefly格式，这意味着它们可以直接用于firefly框架的训练过程。数据集包含了清洗处理后的合并文件，如sft_zh_with_all.jsonl，它包含了约169万条过滤后的问答数据。提供了多种下载方法，包括使用SDK和GIT克隆。SDK方法允许用户通过几行代码快速下载所需的数据集，而GIT方法则适用于希望直接从源代码仓库克隆数据集的用户。

下载链接：https://github.com/CrazyBoyM/llama3-Chinese-chat

2、中文语音识别Aishell-1学术数据集

简介：希尔贝壳中文普通话开源语音数据库AISHELL-ASR0009-OS1录音时长178小时，是希尔贝壳中文普通话语音数据库AISHELL-ASR0009的一部分。AISHELL-ASR0009录音文本涉及智能家居、无人驾驶、工业生产等11个领域。录制过程在安静室内环境中，同时使用3种不同设备：高保真麦克风（44.1kHz，16-bit）；Android系统手机（16kHz，16-bit）；iOS系统手机（16kHz，16-bit）。高保真麦克风录制的音频降采样为16kH

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。