kaggle没有notebook的文件夹系统让我很不满意,决定以后把自己练习的过程都搬上csdn。
目录
1.引入库
import numpy as np
import pandas as pd
import torch
from torch.utils.data import Dataset #抽象类 被继承
from torch.utils.data import DataLoader #加载数据
2.准备数据集
class TitanicDataset(Dataset):
def __init__(self,filepath):
xy = pd.read_csv(filepath)
self.len = xy.shape[0] # xy.shape()可以得到xy的行列,[0]取行,[1]取列
#选取需要的特征
feature = ["Pclass", "Sex", "SibSp", "Parch", "Fare"]
# xy[feature]的类型是DataFrame,先进行独热表示,然后转成array,最后转成tensor用于进行矩阵计算。
self.x_data = torch.from_numpy(np.array(pd.get_dummies(xy[feature])))
self.y_data = torch.from_numpy(np.array(xy["Survived"]))
def __getitem__(self,index): #魔法函数,支持 dataset[index]