【开源数据下载全步骤】利用Pytorch下载开源数据到本地,以Speech Command为例

本文介绍了如何通过PyTorch便捷地下载和在本地使用SpeechCommand数据集,这是一个用于语音识别的开源数据集。通过指定数据保存路径、URL、数据子集等参数,可以轻松下载所需版本的数据,并等待下载完成。
部署运行你感兴趣的模型镜像

背景

开源数据来练练手,虽然可以直接通过pytorch或TensorFlow加载使用,但感觉太麻烦了,所以想直接下载到本地使用。上网直接搜数据集没有那种直接下载的链接,最后发现可以直接通过pytorch或是TensorFlow下载。下面以pytorch下载Speech Command数据集为例。

下载方法介绍(可直接看最后的下载代码)

1、找到对应数据的页面

Speech Command数据集

 拖到下面的Dataset Loader,根据需要选择对应的下载路径。本例使用pytorch。

 2、找到对应的代码仓

root (str or Path) – 
Path to the directory where the dataset is found or downloaded.

url (str, optional) – 
The URL to download the dataset from, or the type of the dataset to download. 
Allowed type values are "speech_commands_v0.01" and "speech_commands_v0.02" 
(default: "speech_commands_v0.02")

folder_in_archive (str, optional) – 
The top-level directory of the dataset. 
(default: "SpeechCommands")

download (bool, optional) – 
Whether to download the dataset if it is not found at root path. 
(default: False).

subset (str or None, optional) – 
Select a subset of the dataset [None, “training”, “validation”, “testing”]. 
None means the whole dataset. 
“validation” and “testing” are defined in “validation_list.txt” and “testing_list.txt”, respectively, and “training” is the rest. 
Details for the files “validation_list.txt” and “testing_list.txt” are explained in the README of the dataset and in the introduction of Section 7 of the original paper and its reference 12. 
(Default: None)

根据上面所说的调用,即可下载

下载代码

下载数据
from torchaudio import datasets

datasets.SPEECHCOMMANDS(
    root="./data",                         # 你保存数据的路径
    url = 'speech_commands_v0.02',         # 下载数据版本URL
    folder_in_archive = 'SpeechCommands',  
    download = True                        # 这个记得选True 
)

然后就等下载就行了(要等一段时间,不行就科学上网)

 

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch 2.5

PyTorch
Cuda

PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

### 构建自制本地AI音响系统的指南 #### 选择合适的硬件平台 对于构建这样的系统,树莓派是一个理想的选择。它体积小巧、功耗低且具备足够的计算能力来运行轻量级的人工智能模型[^1]。 #### 安装操作系统与开发环境 建议安装Raspbian OS作为基础操作系统,在其上配置Python编程环境以及必要的库文件如TensorFlow Lite或PyTorch Mobile用于加载预训练好的音频处理模型。 #### 获取并部署语音识别引擎 可以考虑采用离线版的Kaldi或者Mozilla DeepSpeech开源项目提供的解决方案。这些工具能够实现在不依赖互联网连接的情况下完成基本命令词的理解功能。 #### 集成文本转语音(TTS)服务 为了使设备能发声回应用户的指令,需集成一款高效的TTS引擎。Google Text-to-Speech API虽然强大但不是完免费;而espeak-ng则是一款优秀的开源替代品,适合小型DIY项目使用。 #### 开发应用程序逻辑接口 编写简单的API来接收来自麦克风阵列采集到的声音信号,并调用上述提到的各种组件完成整个交互流程的设计。这可能涉及到Flask框架搭建RESTful Web Service端点以便于其他外围设备与其通信。 ```python from flask import Flask, request import speech_recognition as sr app = Flask(__name__) @app.route('/listen', methods=['POST']) def listen(): r = sr.Recognizer() with sr.Microphone() as source: audio_data = r.record(source) text = recognizer.recognize_google(audio_data) return {'response': process_command(text)} if __name__ == "__main__": app.run(host='0.0.0.0') ``` #### 测试优化迭代改进 不断测试各个模块之间的兼容性和稳定性,根据实际应用场景调整参数设置直至达到满意的效果为止。同时也可以尝试加入更多有趣的功能特性比如音乐播放控制、智能家居联动等等。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值