制作自己的数据集遇到的一些问题

最新推荐文章于 2023-07-29 07:00:00 发布

原创最新推荐文章于 2023-07-29 07:00:00 发布 · 511 阅读

0 ·

CC 4.0 BY-SA版权

本文描述了一种在制作数据集过程中遇到的问题，即生成的数据集为空。通过调整代码中的文件路径处理方式，解决了数据集为空的问题。具体修改了遍历文件路径的代码，确保能够正确读取所有.jpg文件。

制作数据集的代码参考的这位博主
https://blog.youkuaiyun.com/Oscarouyangyafei/article/details/107163584
但是在运行完后发现了不对，npz的文件很小，只有大概1.4k左右，读取查看了以下也是显示的各项数值为0，所以相当于这就是各空的数据集，在实验多次后发现了问题所在。

for path in glob.glob('pokemon/'+file+'/*.*'):

这一句括号里不知道为什么，只能直接写成

路径/.jpg

这样生成的结果才不为空。
但能不能用还要再试试。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Yo_Ci_AIce

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Google Earth Engine APP（GEE）——一个简单的NDVI/EVI区域时序变化情况chart图表

此星光明博客

01-17

1248

我们这里展示一个简单的NDVI和EVI区域统计情况，主要是展示长时序的变化情况，但是代码会出现一些错误，我们这里看看代码的错误提示： Line 51: No features contain non-null values of "system:time_start". Line 51: No images in the collection intersect the specified regions.

制作自己的coco关键点数据集

weilaicxy22的博客

04-21

6023

制作自己的coco关键点数据集 1、将我们需要标注的图片进行重命名，由于coco数据集图片的名称是12位数字，形式如 00000000001。代码如下： import os from tqdm import tqdm import codecs import json for root, _, path in os.walk(<保存图片的文件夹路径>): for s in tqdm(path): os.renames('<保存图片的文件夹路径>/{}'.for

参与评论您还未登录，请先登录后发表或查看评论

关于数据集制作相关问题思考

Zxialuoke的博客

12-09

434

最近需要在模拟器中搜集自动驾驶的数据（图片和车速），开始使用模拟器手动控制车俩的程序时很恼火，很不容易控制。于是我自己写了一份手动控制代码，方便操控。正是这份控制起来方便的方案坑了我很久，自己挖的坑还得自己爬。下面对这坑进行总结一下。挖坑过程详解：学习自动驾驶的同学可能都使用过模拟器，使用模拟器搜集数据集时都会手动控制车俩行驶。简单道路还好，道路弯多一点很容易就跑出去了（条件...

制作深度学习训练集时遇到的问题汇总

qq_27798407的博客

06-01

465

LZ有时候自己制作训练集跑数据，处理图片的时候遇到一些问题不定期更新汇总： 1、二维卷积(实际数学上应该是叫做互相关计算啦)，以下叫做互相关 pic1与pic2互相关：使用scipy.signal.convolve2d(pic1,pic2,mode='') 要求 pic1尺寸 >= pic2 mode有三种参数平常same 使用最多，输出的矩阵的尺寸和pic保持一致（有padding） 2、图片归一化问题：最初保存图片的时候就简单的 arr = arr / np.max...

caffe：制作数据集遇到的问题

qq_34650787的博客

05-24

729

** 问题1：语义分割的groundtruth是一个灰度图片，如何把它作为label来用？** 1）可制作两个lmdb文件，一个Data项是原始图像，Label可为0，另一个Data项为分割后的标注图像，Label为0。使用中caffe是支持多个lmdb输入的。 2）将原始图像(如3通道)，标注图像(1通道)，合在一起成4通道，然后写在一个lmdb中，然后导入后使用Slice层将其切开...

4 数据集注意事项

chencaw的专栏

05-31

858

1、labelImg打标注意：图片的路径和保存的xml路径必须是英文 2、

合成文字图片数据集的注意事项

qq_27061325的博客

05-31

795

1. 保证测试集出现的字符在训练集都出现； 2. 建议使用lmdb存储，除了图像和label信息，还要记录一些关键数目信息； 3. 对汉字要做繁简体字检查，以便正确使用字体或者其他； 4. 避免出现gt信息缺失的情况。 ...

模仿CIFAR数据集格式制作自己的数据集代码（修改版）

07-21

如果你想要创建一个类似CIFAR的数据集，下面是一些关键步骤和知识点： 1. **数据收集**：首先，你需要确定数据集的类别，并搜集相应数量的图像。这些图像应具有代表性和多样性，以便训练出通用性强的模型。例如，...

NeRFStudio数据集

05-22

在复现nerfstudio时有可能会遇到数据集下载不出来的问题，所以我把nerfstudio作者使用的数据集压缩出来上传。下载完解压之后把数据集放在/home/wxy/nerfstudio/data/nerfstudio这个位置，之后再运行指令ns-train ...

Yolov5 与 Keras 实现漂浮物检测：万能运行及数据集制作指南

最新发布

08-20

本指南将提供制作数据集的详细步骤，帮助读者解决数据集制作过程中可能遇到的各种问题。在数据集制作完成后，本指南会带领读者进行模型训练。训练过程是将数据集中的信息转换为模型的参数，是实现漂浮物检测的核心...

精选资源

【计算机视觉】YOLOv8数据集制作与训练技巧：从官方资源到VIP进阶教程汇总

06-29

内容概要：本文详细介绍了YOLOv8数据集的资源获取途径和制作训练的关键步骤。官方资源方面，Ultralytics官网和GitHub仓库提供了从安装到部署的完整教程，VIP内容则包含更深入的案例和定制化指导。付费VIP资源如Udemy...

NeRF制作自己的数据集

qq_46684028的博客

07-29

3441

nerf数据集的详细制作过程

计算机视觉数据集制作的技巧（给小白）

GG的博客

04-17

1412

前言：目标检测是计算机视觉一个重要的领域。物体检测（object detection）是计算机视觉中一个重要的分支，其大致功能是识别一组预定义的对象类，比如说人、汽车、自行车、动物。并使用边界框（矩形框/bounding box）描述图像中每个检测到的图像位置。通常我们会使用最小边界框（矩形框/bounding box）框出目标物体位置，并进行分类。但是通常对象的形状往往是不规则的，所以另一种代替的方法是图像分割技术，图像分割技术一般会精确到像素级。（后话）为了有效地给图片贴上标签，下面

数据集制作问题（转）

qq_36118564的博客

07-11

297

https://blog.youkuaiyun.com/sinat_30071459/article/details/50723212

用深度学习训练自己的数据集

Jaguar_95的博客

10-08

6216

方法一： keras.datasets中的常见数据集，比如mnist： (X_train, y_train), (X_test, y_test) = mnist.load_data() 方法二：对于自己的数据集而言：首先，我们需要将数据分类保存在不同的文件夹中 ./datasets ./class1 0.png 1.png 2.png ......

深度学习-如何提高数据集质量

kingroc的博客

05-17

4820

写这篇写博客的目的是，大家做深度学习进行图片收集的时候，都会遇到数据集质量不高的情况，如何尽可能的提高数据集质量呢？我在这里进行探讨和学习。也希望大家多多给我留言和帮助。《Python将文件大小以概率分布图的方式进行显示》《Python检测JPEG、PNG是否完整》 ...

【五一创作】跑alpaca-lora语言模型的常见问题（心得）

HYY的博客

04-30

2748

Alpaca-Lora是一个开源的自然语言处理框架，使用深度学习技术构建了一个端到端的语言模型。在训练和部署alpaca-lora语言模型时，可能会遇到一些常见问题。本文将介绍一些这些问题及其解决方法。

so-vits-svc4.0 中文详细安装、训练、推理使用教程

热门推荐

Sucial的博客

04-18

9万+

so-vits-svc4.0 中文详细安装、训练、推理使用教程

Google Earth Engine（GEE）——当加载图表的时候出现错误No features contain non-null values of “system:time_start“.

此星光明博客

06-22

1063

错误：解析：出现这个的主要原因是，我们在对影像集合进行映射计算的出现了掩盖掉时间属性的东西，所以我们需要在进行映射函数之后要进行属性的追加，也就是及逆行属性的copy，从而保留这个时间属性，因为在默认状态下chart中是需要进行时间属性的来作为横轴进行加载的，所以这里我们必须要保留原有的影像时间信息。关键代码：reducerscalexProperty。

patchcore制作自己数据集

04-03

<think>好的，用户想了解如何使用PatchCore创建自己的数据集。首先，我需要回忆一下PatchCore的相关知识。PatchCore是一种用于异常检测的模型，通常用于工业检测等场景。构建自定义数据集是关键的一步，因为模型的表现很大程度上依赖于数据的质量。根据用户提供的引用[1]，配置文件config.yaml中提到了数据集相关的设置，比如name和format。用户可能需要按照这个配置文件的结构来调整自己的数据集。例如，dataset部分的name选项有mvtec、btech、folder等，所以如果用户想用自定义数据集，可能需要选择“folder”格式，或者根据已有格式调整。接下来，我需要确定用户的数据集结构。通常，异常检测数据集如MVTec包含训练集和测试集，训练集只有正常样本，测试集包含正常和异常样本。所以用户需要将自己的数据组织成类似的目录结构。比如，在train文件夹中放置正常图片，test文件夹中包含正常和异常的子文件夹，可能还有mask文件夹存放标注的异常区域。然后，用户可能需要修改配置文件中的dataset部分，将name设为“folder”，并指定数据路径。同时，可能需要调整其他参数，比如图像的分辨率或预处理方式，确保与模型兼容。例如，在config.yaml中设置dataset的路径为自定义的路径，并检查是否需要调整图像的大小或归一化参数。另外，用户可能需要编写或修改数据加载的代码。根据引用[1]中的示例，可能有一个torch_model.py文件需要处理数据加载。如果PatchCore的数据加载器默认支持folder格式，用户只需按照指定结构放置数据即可。否则，可能需要自定义Dataset类，继承已有的基类，并正确实现数据读取和预处理。用户可能还会关心如何验证数据集是否正确加载。这时候可以建议他们使用visualization选项，比如设置show_images为True，在训练或测试过程中查看图像是否正确加载和处理。同时，检查日志或输出是否有错误信息，确保路径正确，权限无误。可能遇到的问题包括路径错误、图像格式不支持、数据划分不正确等。需要提醒用户检查配置文件中的路径是否为绝对路径或正确的相对路径，图像格式是否为支持的格式（如PNG、JPEG），以及训练和测试集是否包含正确的样本。最后，用户可能需要示例代码来具体操作。可以提供一个修改后的config.yaml片段，展示如何设置dataset部分，以及一个简单的数据集目录结构示例。此外，可能需要指导用户如何运行训练脚本，指定配置文件，从而使用自定义数据集进行训练和测试。总结一下，步骤大致是：准备数据集结构→修改配置文件→调整数据加载（如有必要）→验证数据集→运行训练。需要确保每个步骤都清晰，并提供具体的示例和可能的问题解决方案。</think>以下是使用PatchCore构建自定义数据集的完整指南，基于官方配置文件的实现逻辑： ### 一、数据集准备规范 1. 创建遵循MVTec风格的数据结构： ``` 自定义数据集名称/ ├── train/ │ └── good/ # 仅包含正常样本 │ ├── 0001.png │ └── 0002.png ├── test/ │ ├── good/ # 测试正常样本 │ ├── defect_type1/ # 异常类别1 │ └── defect_type2/ # 异常类别2 └── ground_truth/ # 可选，异常标注 ├── defect_type1/ └── defect_type2/ ``` 文件组织结构需符合工业异常检测标准[^1] ### 二、配置文件修改修改`config.yaml`中的关键参数： ```yaml dataset: name: folder # 使用自定义数据集模式 format: mvtec # 保持MVTec格式兼容 path: "/your/custom/path" # 数据集绝对路径 extension: ".png" # 根据实际格式调整 model: name: patchcore backbone: wide_resnet50_2 # 可选其他预训练主干网络 pretrained: true # 使用ImageNet预训练权重 ``` ### 三、数据加载器适配创建`custom_loader.py`实现数据增强： ```python from torchvision.transforms import Compose, Resize, ToTensor def get_transform(image_size=256): return Compose([ Resize((image_size, image_size)), ToTensor(), lambda x: x * 2 - 1 # PatchCore标准归一化 ]) ``` ### 四、训练验证流程 1. 启动训练命令： ```bash python train.py --config config.yaml --dataset.name folder ``` 2. 验证数据加载： ```yaml # 在config.yaml中启用可视化 visualization: show_images: True # 显示前处理结果 save_images: False # 调试阶段建议关闭 ``` ### 五、常见问题排查 - 路径错误：确保使用绝对路径或正确相对路径 - 图像格式：统一为RGB格式，推荐PNG无损压缩 - 内存优化：调整`dataloader`的`num_workers`参数 - 归一化一致性：验证预处理与模型要求匹配