使用Gluon和K折交叉验证解决Kaggle房价预测问题

秋然仪Stranger

于 2025-06-24 09:11:41 发布

阅读量315

点赞数 5

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00419/article/details/148862799

使用Gluon和K折交叉验证解决Kaggle房价预测问题

mxnet-the-straight-dope An interactive book on deep learning. Much easy, so MXNet. Wow. [Straight Dope is growing up] ---> Much of this content has been incorporated into the new Dive into Deep Learning Book available at https://d2l.ai/. 项目地址: https://gitcode.com/gh_mirrors/mx/mxnet-the-straight-dope

前言

在深度学习的学习过程中，实践是检验学习成果的最佳方式。本文将以Kaggle平台上的房价预测竞赛为例，展示如何使用MXNet的Gluon接口和K折交叉验证技术来构建一个完整的机器学习解决方案。这个案例不仅可以帮助读者理解深度学习在实际问题中的应用，还能掌握数据预处理、模型构建和评估的关键技术。

问题背景

房价预测是Kaggle平台上经典的回归问题竞赛。给定一系列房屋特征（如面积、建造年份、地理位置等），参赛者需要构建模型预测房屋的销售价格。这个问题的难点在于：

数据包含数值型和类别型特征
存在大量缺失值
特征间尺度差异大
需要处理非线性关系

数据准备

数据加载

我们使用pandas库加载训练集和测试集：

import pandas as pd
import numpy as np

train = pd.read_csv("../data/kaggle/house_pred_train.csv")
test = pd.read_csv("../data/kaggle/house_pred_test.csv")

数据探索

查看数据的基本信息：

print(train.shape)  # (1460, 81)
print(test.shape)   # (1459, 80)

训练集包含1460个样本，80个特征和1个目标变量（房价）；测试集有1459个样本，缺少目标变量。

数据预处理

特征标准化

对数值型特征进行标准化处理：

numeric_feas = all_X.dtypes[all_X.dtypes != "object"].index
all_X[numeric_feas] = all_X[numeric_feas].apply(
    lambda x: (x - x.mean()) / (x.std()))

类别型特征处理

使用独热编码(one-hot encoding)转换类别型特征：

all_X = pd.get_dummies(all_X, dummy_na=True)

缺失值处理

用特征均值填充缺失值：

all_X = all_X.fillna(all_X.mean())

模型构建

网络定义

我们定义一个简单的线性回归模型：

def get_net():
    net = gluon.nn.Sequential()
    with net.name_scope():
        net.add(gluon.nn.Dense(1))
    net.initialize()
    return net

损失函数

使用平方损失函数，并定义竞赛要求的对数RMSE评估指标：

square_loss = gluon.loss.L2Loss()

def get_rmse_log(net, X_train, y_train):
    num_train = X_train.shape[0]
    clipped_preds = nd.clip(net(X_train), 1, float('inf'))
    return np.sqrt(2 * nd.sum(square_loss(
        nd.log(clipped_preds), nd.log(y_train))).asscalar() / num_train)

K折交叉验证

K折交叉验证是评估模型性能的重要技术，可以有效防止过拟合：

def k_fold_cross_valid(k, epochs, verbose_epoch, X_train, y_train,
                       learning_rate, weight_decay):
    assert k > 1
    fold_size = X_train.shape[0] // k
    train_loss_sum = 0.0
    test_loss_sum = 0.0
    for test_i in range(k):
        X_val_test = X_train[test_i*fold_size: (test_i+1)*fold_size, :]
        y_val_test = y_train[test_i*fold_size: (test_i+1)*fold_size]
        
        val_train_defined = False
        for i in range(k):
            if i != test_i:
                X_cur_fold = X_train[i*fold_size: (i+1)*fold_size, :]
                y_cur_fold = y_train[i*fold_size: (i+1)*fold_size]
                if not val_train_defined:
                    X_val_train = X_cur_fold
                    y_val_train = y_cur_fold
                    val_train_defined = True
                else:
                    X_val_train = nd.concat(X_val_train, X_cur_fold, dim=0)
                    y_val_train = nd.concat(y_val_train, y_cur_fold, dim=0)
        net = get_net()
        train_loss, test_loss = train(
            net, X_val_train, y_val_train, X_val_test, y_val_test, 
            epochs, verbose_epoch, learning_rate, weight_decay)
        train_loss_sum += train_loss
        print("Test loss: %f" % test_loss)
        test_loss_sum += test_loss
    return train_loss_sum / k, test_loss_sum / k

模型训练与评估

设置超参数并启动训练：

k = 5
epochs = 100
verbose_epoch = 95
learning_rate = 5
weight_decay = 0.0

train_loss, test_loss = k_fold_cross_valid(k, epochs, verbose_epoch, X_train,
                                          y_train, learning_rate, weight_decay)
print("%d-fold validation: Avg train loss: %f, Avg test loss: %f" % 
      (k, train_loss, test_loss))