一、数据获取方法
1. 开源数据集
免费,成本低
-
PyTorch: https://pytorch.org/vision/stable/datasets.html
-
开源数据集imagenet:https://image-net.org/
-
Hugging Face数据集:https://huggingface.co/datasets
-
kaggle数据集下载网址:https://www.kaggle.com/datasets
-
各种网站:
https://public.roboflow.com/
https://zhuanlan.zhihu.com/p/648720525
https://www.cvmart.net/dataSets
2. 外包平台
效果好,成本高
外包平台(Amazon Mechanical Turk,阿里众包,百度数据众包,京东微工等)
3.自己采集和标注
质量高、效率低、成本高。
labelimg、labelme工具的使用。
4. 通过网络爬虫获取
爬虫工具
二、数据本地化
使用公开数据集时,会自动保存到本地。如果已下载,就不会重复下载。如果需要以图片的形式保存到本地以方便观察和重新处理,可以按照如下方式处理。
1. 图片本地化
使用一下代码保存图片到本地
dir = os.path.dirname(__file__)
def save2local():
trainimgsdir = os.path.join(dir, "MNIST/trainimgs")
testimgsdir = os.path.join(dir, "MNIST/testimgs")
if not os.path.exists(trainimgsdir):
os.makedirs(trainimgsdir)
if not os.path.exists(testimgsdir):
os.makedirs(testimgsdir)
trainset = torchvision.datasets.MNIST(
root=datapath,
train=True,
download=True,
transform=transforms.Compose([transforms.ToTensor()]),
)
for idx, (img, label) in enumerate(trainset):
labdir = os.path.join(trainimgsdir, str(label))
os.makedirs