Microsoft CNTK 深度学习框架：CIFAR-10 数据集加载与预处理实战指南-优快云博客

Microsoft CNTK 深度学习框架：CIFAR-10 数据集加载与预处理实战指南

CNTK Microsoft Cognitive Toolkit (CNTK), an open source deep-learning toolkit 项目地址: https://gitcode.com/gh_mirrors/cn/CNTK

前言

在深度学习领域，数据预处理是模型训练前至关重要的环节。本文将详细介绍如何在 Microsoft CNTK 框架中处理 CIFAR-10 数据集，这是计算机视觉领域最常用的基准数据集之一。通过本教程，您将掌握将原始图像数据转换为 CNTK 可识别格式的全过程。

CIFAR-10 数据集概述

CIFAR-10 数据集由 Alex Krizhevsky、Vinod Nair 和 Geoffrey Hinton 收集整理，包含 60,000 张 32x32 像素的彩色图像，分为 10 个类别：

飞机
汽车
鸟
猫
鹿
狗
青蛙
马
船
卡车

数据集分为 50,000 张训练图像和 10,000 张测试图像，每个类别在训练集和测试集中均有均匀分布。

环境准备

在开始处理数据前，我们需要导入必要的 Python 库：

from __future__ import print_function
from PIL import Image
import numpy as np
import pickle as cp
import os
import tarfile
import xml.etree.cElementTree as et
import xml.dom.minidom
from urllib.request import urlretrieve

数据下载与解压

首先定义数据集的基本参数：

imgSize = 32  # CIFAR-10 图像尺寸为32x32
numFeature = imgSize * imgSize * 3  # 每个图像的特征数量(32x32x3)

我们通过以下函数实现数据下载和解压：

def loadData(src):
    print('Downloading ' + src)
    fname, h = urlretrieve(src, './delete.me')
    print('Done.')
    try:
        print('Extracting files...')
        with tarfile.open(fname) as tar:
            tar.extractall()
        print('Done.')
        ...
    finally:
        os.remove(fname)

数据处理核心函数

1. 读取批次数据

def readBatch(src):
    with open(src, 'rb') as f:
        if sys.version_info[0] < 3:
            d = cp.load(f)
        else:
            d = cp.load(f, encoding='latin1')
        data = d['data']
        feat = data
    res = np.hstack((feat, np.reshape(d['labels'], (len(d['labels']), 1)))
    return res.astype(np.int)

这个函数负责读取 CIFAR-10 的 pickle 格式数据文件，并将图像数据和标签合并为一个 numpy 数组。

2. 保存为文本格式

def saveTxt(filename, ndarray):
    with open(filename, 'w') as f:
        labels = list(map(' '.join, np.eye(10, dtype=np.uint).astype(str)))
        for row in ndarray:
            row_str = row.astype(str)
            label_str = labels[row[-1]]
            feature_str = ' '.join(row_str[:-1])
            f.write('|labels {} |features {}\n'.format(label_str, feature_str))

此函数将数据保存为 CNTK 可识别的文本格式，每行包含标签和特征数据，格式如下： |labels 0 0 1 0 0 0 0 0 0 0 |features 59 43 50 ...

3. 图像保存与均值计算

def saveImage(fname, data, label, mapFile, regrFile, pad, **key_parms):
    pixData = data.reshape((3, imgSize, imgSize))  # 转换为CHW格式
    if ('mean' in key_parms):
        key_parms['mean'] += pixData
    
    if pad > 0:
        pixData = np.pad(pixData, ((0,0), (pad,pad), (pad,pad)), 
                        mode='constant', constant_values=128)
    
    img = Image.new('RGB', (imgSize + 2*pad, imgSize + 2*pad))
    pixels = img.load()
    for x in range(img.size[0]):
        for y in range(img.size[1]):
            pixels[x,y] = (pixData[0][y][x], pixData[1][y][x], pixData[2][y][x])
    img.save(fname)
    ...

此函数不仅保存图像为 PNG 格式，还计算了图像均值，这对于后续的图像归一化处理非常重要。

完整数据处理流程

下载数据集：从指定URL下载CIFAR-10的压缩包
解压数据：提取pickle格式的数据文件
转换格式：
- 将训练集和测试集分别保存为CNTK文本格式
- 将图像保存为PNG格式
- 计算并保存图像均值
生成映射文件：创建图像路径与标签的映射关系

# 执行完整处理流程
if not os.path.exists(data_dir):
    os.makedirs(data_dir)

try:
    os.chdir(data_dir)
    trn, tst = loadData('http://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz')
    saveTxt('./Train_cntk_text.txt', trn)
    saveTxt('./Test_cntk_text.txt', tst)
    saveTrainImages('./Train_cntk_text.txt', 'train')
    saveTestImages('./Test_cntk_text.txt', 'test')
finally:
    os.chdir("../..")