深度学习之数据处理

原创已于 2023-06-11 13:32:15 修改 · 1.7k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #python #pandas

于 2022-07-01 22:00:24 首次发布

深度学习专栏收录该内容

55 篇文章

订阅专栏

本文介绍如何使用Python进行数据预处理，包括创建CSV文件、读取数据、处理缺失值及字符串转换等步骤，并最终将数据转换为Tensor形式，以便于进行机器学习任务。

部署运行你感兴趣的模型镜像

数据操作

数据类型，我们最常用的便是数组了

在这里插入图片描述

创建数组需要

形状：几行几列
元素类型：int还是float
元素值

数组访问方式：
在这里插入图片描述

代码：

在这里插入图片描述

这种机制的工作方式如下：首先，通过适当复制元素来扩展一个或两个数组，以便在转换之后，两个张量具有相同的形状。其次，对生成的数组执行按元素操作。

由于a和b分别是和矩阵，如果让它们相加，它们的形状不匹配。我们将两个矩阵广播为一个更大的矩阵，如下所示：矩阵a将复制列，矩阵b将复制行，然后再按元素相加。

数据预处理

创建文件并写入数据

import os
os.makedirs(os.path.join('.', 'data'), exist_ok=True)#在当前目录下创建data文件夹
data_file = os.path.join('.', 'data', 'house_tiny.csv')#在data文件夹下创建house_tiny.csv
print(data_file)
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')  # 列名
    f.write('NA,Pave,127500\n')  # 每行表示一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

读取文件，对于csv文件多用pandas这个库

import pandas as pd
data=pd.read_csv(data_file)
print(data)

在这里插入图片描述

数据处理缺失值与转换
对于缺失值，我们可以采用插入法和删除法两种，插入即我们给定取值，删除则是直接删除不再考虑，这里我们采用缺失值取均值的方式

inputs,outputs = data.iloc[:, 0:2], data.iloc[:, 2]#按照文件格式读取数据，读第一列至第二列
inputs = inputs.fillna(inputs.mean())#对于缺少的数值我们一般取其他值的均值
inputs = pd.get_dummies(inputs, dummy_na=True)#对于string类型我们看到Alley取值只有Pave和NaN,所以我们可以将Pave记为1，NaN记为0
print(inputs)

在这里插入图片描述

将我们的数据转换为张量

import torch
x,y=torch.tensor(inputs.values),torch.tensor(outputs.values)
print(x,y)

到这里，我们便将数据转换为tensor的张量，这种对于计算机是可处理的
在这里插入图片描述

完整代码：

import os
os.makedirs(os.path.join('.', 'data'), exist_ok=True)
data_file = os.path.join('.', 'data', 'house_tiny.csv')
print(data_file)
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')  # 列名
    f.write('NA,Pave,127500\n')  # 每行表示一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')
import pandas as pd
data=pd.read_csv(data_file)
print(data)
inputs,outputs = data.iloc[:, 0:2], data.iloc[:, 2]#按照文件格式读取数据，读第一列至第二列
inputs = inputs.fillna(inputs.mean())#对于缺少的数值我们一般取其他值的均值
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)
import torch
x,y=torch.tensor(inputs.values),torch.tensor(outputs.values)
print(x,y)