如何通过Dataset查看数据的形状和标签

最新推荐文章于 2025-04-08 10:21:45 发布

SmartBeeL

最新推荐文章于 2025-04-08 10:21:45 发布

阅读量1.1k

点赞数 10

分类专栏：机器学习文章标签： pytorch 人工智能 python

本文链接：https://blog.youkuaiyun.com/qq_42120106/article/details/135668705

版权

机器学习专栏收录该内容

1 篇文章

订阅专栏

from torch.utils.data import DataLoader, TensorDataset,WeightedRandomSampler

首先我们确保引入了TensorDataset

其次，我们的数据已经被处理成tensor形状，如果是Dataframe需要先转array再转tensor，我这里使用的是入侵检测数据集UNSWNB15，简单的二维数据集，读取的部分就不展示了

X = torch.tensor(np.array(new_train_df),dtype = torch.float32).to(device)
y = torch.tensor(np.array(y_train_re),dtype = torch.long).to(device)

代码中的new_train_df和y_train_re都是Dataframe格式，通过上面的代码处理后，能够进行TensorDataset的封装，如下

X_train,X_test,y_train,y_test = train_test_split(X,y,train_size=0.8,random_state=42)
train_dataset = TensorDataset(X_train,y_train)
test_dataset = TensorDataset(X_test,y_test)

这里可能在train_dataset之后需要输出里面的数据形状或者label，代码如下：

data,label = train_dataset[0]
print(len(train_dataset))
print(data.size())
data,label = test_dataset[0]
print(len(test_dataset))
print(data.size())

输出为：

206138
torch.Size([42])
51535
torch.Size([42])

如果需要查看标签直接print(label)就可以

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

SmartBeeL

关注关注

10
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

查看Dataset与DataLoader

YJYS_ZHX的博客

03-04

1105

class MyDataset(Dataset): def __init__(self): def __len__(self): def __getitem__(self, idx)： return sample 自定义的Dataset，因为实现了__getitem_ _，因此可以通过像访问列表似的访问Dataset的对象。 trainloader = torch.utils.data.DataLoader(dataset, batch_size=2, shuffl

开发自己的DataSet查看器

weixin_33860722的博客

08-03

105

记得在vs2002不是2003上没有DataSet调试器，断点时查看DataSet内容非常麻烦，最后有人开发了第三方工具解决了此问题。后续的vs版本内部都自带的此工具可查看DataSet/DataTable/DataView内容，非常方便。最近不知为何，不知是Window10问题还是vs问题，自带的DataSet调试器不规律死掉，vs2105和2017都这样，在调试时非常头痛，不想动脑筋，在网上找...

1 条评论您还未登录，请先登录后发表或查看评论

查看VOC数据集XML标签是否有空标签

最新发布

qq_44992785的博客

04-08

【代码】查看VOC数据集XML标签是否有空标签。

如何查找数据集的一张图片打了多少标签

王泽邦（bill）の博客

09-29

811

①：首先右键，Notepad++形式打开一个.xml的标签文件 ②：以查找蚕茧为例，选中“<name>Cocoons<name>”，ctrl+f，选择当前文件查找 ③：会显示一共有多少蚕茧标签打上，如果是幼蚕就是“<name>Silkworms<name>”，都是类似 ...

查找数据集标注xml文件中的标签类别classes

weixin_57425565的博客

01-31

1134

参考博主：https://blog.youkuaiyun.com/qq_38441692/article/details/104183666。将下述标注xml文件的地址（annotation_path）转化成自己的即可。在拿到数据集时，需要知道数据集中标注有哪些类别才能继续向下进行。

寻找相对应的数据和label

mvpboy123的博客

07-08

288

在b文件夹中寻找与a文件夹中对应的数据，并输出到c文件夹 import os import os.path import shutil import glob path = "C:/Users/User\Desktop/UNetSCB1/train_label1/" img_path = glob.glob(path+"/*.png") for i in range(859): # print(img_path[i][44:]) print(i) data_path = "C:/U

YOLO火焰和烟雾检测数据集 fire_smoke-dataset.zip

04-20

本数据集"fire_smoke-dataset.zip"专注于火焰和烟雾的检测，对于火灾预警和安全监控系统的开发具有重要意义。该数据集包含近500张图片，每张图片都精确地标注了火焰和烟雾的位置。这些标注信息是通过两种常见的...

102 Category Flower Dataset(标签文件)

05-18

这些模型通过学习图像的低级到高级特征，能有效地捕捉花卉的形状、纹理和颜色信息，从而实现高精度的分类。为了优化模型性能，数据预处理步骤也非常重要。这可能包括图像的缩放、裁剪、归一化以及增强，如随机翻转...

yolo算法-水果数据集5544数据集-600张图像带标签fruit-dataset-comp5544.zip

10-26

数据集的标签格式遵循YOLO算法的标准格式，每个标签文件中都包含了目标的类别索引以及目标框中心点的坐标和宽度、高度信息。其中类别索引是从0开始的，而目标框的中心点坐标、宽度和高度都是相对于图像的宽度和高度...

YOLO焊缝检测数据集-dataset-11.zip

02-04

2. YOLO格式标签：YOLO的标签文件与图像一一对应，它们以纯文本形式描述了图像中焊缝的位置和形状。每个标签文件包含多行，每行对应图像中的一个焊缝对象，列出其边界框的坐标（左上角和右下角的像素值）以及对应的...

YOLO电塔绝缘子检测数据集 Insulator-dataset.zip

01-19

该数据集提供了两种标签格式：txt和xml。txt标签通常包含边界框坐标，即每个绝缘子在图像中的位置，而xml标签可能包含更详细的元数据，如类别信息、物体的精确轮廓等。这些标签对于监督学习过程至关重要，因为它们...

带有标签的检测数据集

09-07

带有标签的检测数据集

Dataset 读取数据

qq_44665922的博客

03-09

713

数据集文件夹对应位置，图片是随便找的。

对Dataset 进行查询的几中方法。

龍行者天空

06-26

8040

1. 查询的数据用dataview 显示 DataRow[] drStock = dsStockInfo.Tables[0].Select(""); DataTable dtStock =dsStockInfo.Tables[0].Clone(); //提取数据一行一列的添加到视图中在grdOrderDetail中显示 for(int i=0; i { Data

【查看voc类型数据集标签是否正确】

qq_38253797的博客

11-10

565

检查数据集

读取数据集的标签，并在图像中显示出来，以判断数据集标签是否正确

weixin_39153202的博客

09-04

7907

（1）将annotations放到一个文件夹下，并读取标签。 import os import glob import pandas as pd import xml.etree.ElementTree as ET def xml_to_csv(path): xml_list = [] for xml_file in glob.glob(path + '/*.xml'): ...

BCI竞赛数据集下载及测试集的标签查看

xiyuelxq1的博客

12-24

7349

BCI竞赛数据集下载及其测试集标签的方法基于EEG信号P300 speller模式识别项目，在BCI竞赛iii官网下载数据集&测试集的方法

DataSet用法详细转

afeyfre41671的博客

06-08

3508

DataSet用法详细一、特点介绍 1、处理脱机数据，在多层应用程序中很有用。 2、可以在任何时候查看DataSet中任意行的内容，允许修改查询结果的方法。 3、处理分级数据 4、缓存更改 5、XML的完整性：DataSet对象和XML文档几乎是可互换的。二、使用介绍 1、创建DataSet对象： DataSetds = new DataSet("DataSetNa...

如何读取h5文件中的特征数据和标签数据

04-03

<think>好的，我需要帮助用户了解如何读取H5文件中的特征数据和标签数据。首先，我得回忆一下H5文件的结构和相关库。H5文件通常使用HDF5格式存储，Python中常用的库是h5py。用户可能需要安装这个库，所以应该先提醒他们安装。接下来，我应该考虑如何分步骤解释读取过程。首先是导入库，然后打开文件，接着访问数据集。需要说明如何查看文件中的键，以确定存在哪些数据集。然后，分别读取特征和标签数据，可能它们的键名不同，比如'features'和'labels'，但用户需要根据实际情况调整。还要注意关闭文件，或者建议使用with语句来自动管理。可能需要提到如何检查数据的形状和类型，确保读取正确。另外，用户可能不太清楚HDF5的结构，所以简单解释一下组和数据集的概念可能会有帮助。然后，我需要确保步骤清晰，代码示例正确无误。比如，正确的h5py语法，使用文件对象的方法来获取数据集。同时，要提醒用户替换文件路径和实际的键名。可能还要提到异常处理，比如键不存在时的错误，但为了简洁，可能暂时不深入。最后，要确认整个过程符合用户的需求，是否还有其他注意事项，比如数据转换或处理。不过用户主要问的是读取，所以保持重点在此。总结一下步骤，确保用户能一步步跟随操作，成功读取数据。</think>以下是通过Python使用`h5py`库读取H5文件中特征数据和标签数据的步骤： --- ### **1. 安装必要库** ```bash pip install h5py numpy ``` --- ### **2. 基本读取流程** ```python import h5py import numpy as np # 打开H5文件 with h5py.File('your_file.h5', 'r') as f: # 查看文件结构 print("Keys in H5文件:", list(f.keys())) # 假设特征数据存储在'features'键下，标签在'labels'键下 features = np.array(f['features']) # 转换为NumPy数组 labels = np.array(f['labels']) # 验证数据形状 print("特征数据形状:", features.shape) print("标签数据形状:", labels.shape) ``` --- ### **3. 关键点说明** 1. **文件结构检查** HDF5文件可能包含多个`组(group)`和`数据集(dataset)`，使用`list(f.keys())`查看顶层键名。若数据在子组中，需逐级访问，例如`f['group1/subgroup/data']` 2. **数据类型处理** HDF5数据集默认返回类似NumPy数组的对象，直接转换为`np.array`方便后续计算 3. **自动关闭文件** `with`语句确保文件正确关闭，避免数据损坏 --- ### **4. 复杂结构示例** 若数据存储在嵌套结构中： ```python with h5py.File('complex_data.h5', 'r') as f: # 访问嵌套数据 features = np.array(f['experiment1/train/features']) labels = np.array(f['experiment1/train/labels']) ``` --- ### **5. 常见问题** - **键名不匹配**：根据实际H5文件结构调整路径 - **数据压缩**：H5文件可能使用压缩存储，`h5py`会自动解压 - **大数据处理**：对于超大文件，可通过切片读取部分数据，例如`f['features'][0:100]` --- ### **验证数据示例** ```python # 打印部分数据 print("前5个样本特征:\n", features[:5]) print("前5个标签:\n", labels[:5]) ``` 通过以上步骤即可高效读取H5文件中的结构化数据。