动手学深度学习数据加载——indices的使用

在线性回归的从零开始实现的代码中,由于本人python底子偏弱,一边学习写代码一边理解代码。对于加载数据这一块的indices的使用有了一点了解,因此对于这块内容做一个小笔记。

def data_iter(batch_size, features, labels):
    num_examples = len(features)
    indices = list(range(num_examples))
    # 这些样本是随机读取的,没有特定的顺序
    random.shuffle(indices)
    for i in range(0, num_examples, batch_size):
        batch_indices = torch.tensor(
            indices[i: min(i + batch_size, num_examples)])
        yield features[batch_indices], labels[batch_indices]

在我们所谓的打乱顺序中,其实打乱的是indices,也就是下标,对于数组本身没有任何关系,indices存的就是下标。本身features数组与label数组是一一对应的,通过数组下标进行连接对应。下面的测试用例很好的表现了这类关系,

import torch
import random

# 示例数据
features = torch.tensor([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])
labels = torch.tensor([0, 1, 2, 3, 4])

# 获取样本数量
num_examples = len(features)

# 创建索引列表
indices = list(range(num_examples))#indices就是存了一个下标,然后打乱下标,对应的元素的那个数组没有变

# 打乱索引列表
random.shuffle(indices)
print(indices)
print(indices[0])
# 使用索引访问元素
batch_size = 2
for i in range(0, num_examples, batch_size):
    batch_indices = indices[i:i + batch_size]
    batch_features = features[batch_indices]
    batch_labels = labels[batch_indices]
    print(f"Batch {i//batch_size + 1}: Features = {batch_features}, Labels = {batch_labels}")

输出结果如下。
在这里插入图片描述

### 数据集划分的重要性 在机器学习和深度学习实践中,数据集的合理划分对于模型的有效性和可靠性至关重要[^1]。无论是分类、回归还是其他复杂任务,如图像识别或自然语言处理,恰当的数据分割策略都是不可或缺的一部分。 ### 使用sklearn进行简单随机划分 `sklearn.model_selection.train_test_split()` 是一种简便的方法来进行初始的数据拆分: ```python from sklearn.model_selection import train_test_split X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=42) X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42) ``` 这段代码首先将原始数据按照70%训练集和30%临时集的比例分开;接着再把这30%进一步均等地分配给验证集和测试集。 ### PyTorch中的自定义Dataset与DataLoader实现更灵活控制 为了适应不同应用场景的需求,可以利用 `torch.utils.data.Dataset` 类来自定义数据加载器,并配合 `torch.utils.data.DataLoader` 来创建迭代器访问批次样本。这种方式允许更加精细地管理各个子集之间的关系以及它们各自的预处理逻辑[^3]。 ```python import torch from torch.utils.data import Dataset, DataLoader, SubsetRandomSampler from torchvision.datasets import MNIST from torchvision.transforms import ToTensor dataset = MNIST(root='./data', download=True, transform=ToTensor()) indices = list(range(len(dataset))) split = int(np.floor(0.2 * len(indices))) # 假设取80%-20% np.random.shuffle(indices) train_indices, val_indices = indices[split:], indices[:split] train_sampler = SubsetRandomSampler(train_indices) val_sampler = SubsetRandomSampler(val_indices) train_loader = DataLoader(dataset, batch_size=64, sampler=train_sampler) val_loader = DataLoader(dataset, batch_size=64, sampler=val_sampler) ``` 上述例子展示了如何基于MNIST手写数字图片库构建一个简单的二元分割方案——即只设置了训练集和验证集。实际应用中可能还需要额外引入独立于两者之外的一个测试集用于最终评估。 ### 正确使用各阶段数据集 值得注意的是,在整个开发周期内应当严格遵循如下原则:仅用训练集调整参数权重;借助验证集挑选最优超参配置而不泄露任何关于其分布的信息至模型本身;最后依靠完全未知的测试集衡量整体表现并报告结果。违反此流程可能导致过拟合现象发生,使得实验结论失去意义[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值