gsutil 下载谷歌云数据集,以Waymo数据集为例

本文介绍使用gsutil从谷歌云下载Waymo数据集的详细步骤,包括安装gsutil、Google Cloud SDK,配置gcloud,以及提高下载速度的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


前言

记录下载waymo数据集的过程


一、gsutil是什么?

gsutil 是一个 Python 应用,该应用可让您通过命令行访问 Cloud Storage。

二、使用步骤

1.安装gsutil

代码如下(示例):

pip install --upgrade pip
pip install gsutil

2.安装Google Cloud SDK

下载安装Google Cloud CLI 安装程序
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-W4dIN4j8-1722525015587)(https://i-blog.csdnimg.cn/blog_migrate/cb562f5fb686a1475d55905b102e37ae.png#pic_center)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FJmlYJIs-1722525015591)(https://i-blog.csdnimg.cn/blog_migrate/d18eb9d980175ac17f41b4efc39f35e3.png#pic_center)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zqM2TsA1-1722525015592)(https://i-blog.csdnimg.cn/blog_migrate/65bd61911fd64b4c0ac90aba6bcee391.png#pic_center)]
选择默认路径
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tjaxd7BI-1722525015592)(https://i-blog.csdnimg.cn/blog_migrate/5d664219224b03e96a7e7577240579ec.png#pic_center)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5vFxDycQ-1722525015593)(https://i-blog.csdnimg.cn/blog_migrate/6e2031ddb6c237d77b8e46e09bfc1e79.png#pic_center)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IgO8agkJ-1722525015593)(https://i-blog.csdnimg.cn/blog_migrate/ca5eef5c40bd8f27c11c34d822283c6a.png#pic_center)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3b0MhtZh-1722525015594)(https://i-blog.csdnimg.cn/blog_migrate/5d417d45fd17c53b477403bf366954f0.png#pic_center)]

3.配置gcloud

第二步Finish后默认打开cmd+gcloud init
或者自己 打开Google Cloud SDK Shell,输入
(经实践,必须要在Google Cloud SDK Shell里面进行下列操作,否则就算登录了也会提示匿名者访问错误,如下)

ServiceException: 401 Anonymous caller does not have storage.objects.get access to the Google Cloud Storage object. Permission 'storage.objects.get' denied on resource (or it may not exist).
CommandException: 1 file/object could not be transferred.
gcloud init

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iU9z5dpL-1722525015594)(https://i-blog.csdnimg.cn/blog_migrate/e64d2dd3a4803e8d0e62511cfcef7b4c.png#pic_center)]
配置账户信息

gcloud auth login

设置proxy(因人而异)
设置地址和端口:

gcloud config set proxy/type http
gcloud config set proxy/address 127.0.0.1
gcloud config set proxy/port 7890

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-28YgnGoc-1722525015595)(https://i-blog.csdnimg.cn/blog_migrate/1af7596f63cff157f679521240fd7600.png#pic_center)]
network proxy:HTTP->host address:127.0.0.1->proxy port:1082->proxy authenticated:N
弹出网页通过验证
安装crcmod,设置分片下载,提高下载速度

pip install -U crcmod

验证是否安装成功

gsutil version -l

如下结果就是安装成功了
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1lDFwHEs-1722525015595)(https://i-blog.csdnimg.cn/blog_migrate/a834e11525121173a7fde516939242e3.png#pic_center)]

4.下载示例

#例
gsutil -m cp -r "gs://waymo_open_dataset_motion_v_1_1_0/uncompressed/scenario" .

下载大文件时,发现经常出现下载失败的问题,速度很慢(正常1~2M/s),有时候还会卡死(几十kb/s),所以写了一个批处理文件一个一个下载,效果蛮好的(稳定3M/s),新建一个txt文件,把下面代码粘贴进去,修改后缀名为bat,再拖入Google Cloud SDK Shell里,回车自动执行。(根据需要修改文件保存地址和要下载的文件)

@echo off
cd /d F:\Motion1.1\tf_example\training
for /l %%i in (0,1,999) do (gsutil -m cp "gs://waymo_open_dataset_motion_v_1_1_0/uncompressed/tf_example/training/training_tfexample.tfrecord-00%%i-of-01000" .)
pause

效果如图
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BoKuxA26-1722525015596)(https://i-blog.csdnimg.cn/blog_migrate/d0be8be1d7ac4528b61484e28fefbcfb.png)]

总结

记录下载waymo数据集的过程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值