KNN实现（数据集cifar10）

最新推荐文章于 2025-05-15 12:40:27 发布

ncc1995

最新推荐文章于 2025-05-15 12:40:27 发布

阅读量1.7k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/ncc1995/article/details/84836450

本文介绍了如何使用Python3读取CIFAR10数据集，并进行了数据集划分，为实现KNN算法做准备。由于Python2和Python3的pickle读取方式差异，文中提到了采用Python3的读取方法，同时提到encoding的选择问题。虽然此次未使用交叉验证，但作者计划后续尝试引入交叉验证进行进一步实验。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 读取数据集

import pickle

with open('data_batch_2', 'rb') as f:
    #x = pic.load(f, encoding='bytes')
    x = pickle.load(f, encoding='latin1')
    print(x['data'].shape)

#shape(10000, 3072)

cifar数据集是用pickle序列化保存，读取方式python2和python3不同，此处采用的python3。encoding可以是bytes，也可以是latin1，目前还没搞懂这是为什么。

def cifarLoad():
    file = 'data_batch_'
    train_data = []
    train_label = []
    val_data = []
    val_label = []
    for i in range(1, 6):
        filename = file + str(i)
        data_batch = unpickle(filename)
        train_data.extend(list(data_batch['data'])[0:9000])
        list(data_batch['data'])
        train_label.extend(data_batch['labels'][0:9000])
        val_data.extend(data_batch['data'][9000:, :])
        val_label.extend(data_batch['labels'][9000:])

    return np.array(train_data), np.array(train_label), np.array(val_data), np.array(val_label)