问题描述:
让购房者描述他们梦想中的房子,他们可能不会从地下室的天花板的高度或者是距离铁路的距离来考虑。但是这个数据集可以包含了影响房价的因素。79 个解释变量(几乎)描述了爱荷华州艾姆斯住宅的各个方面,
数据集下载:
House Prices - Advanced Regression Techniques | Kaggle
实现代码:
读取数据文件和对数据处理
import numpy as np
import pandas as pd
import torch
from torch import nn
from d2l import torch as d2l
train_data = pd.read_csv('datasets/house-prices/train.csv')
test_data = pd.read_csv('datasets/house-prices/test.csv')
#查看前四個和最後兩個特徵,以及相應標籤
train_data.iloc[0:4,[0,1,2,3,-3,-2,-1]]
#数据集中的id需要删除
all_features = pd.concat((train_data.iloc[:,1:-1],test_data.iloc[:,1:]))
all_features
数据预处理:
将缺失值替换为平均值
离散值用独热编码来替换
数据转换为张量,为训练做准备
'''
若無法獲得測試數據&