Kaggle Competition 进阶 -- House Prices Prediction 房价预测 Part 1

本文是Kaggle房价预测项目的第一部分,作者通过数据预处理、可视化探索、特征工程等步骤,尝试降低自变量数量并构建回归模型。在数据预处理中,处理了缺失值和异常值;通过可视化发现'Overall Quality'对房价影响显著,而'YearBuilt'与价格存在非线性关系。在特征工程中,使用log变换处理目标变量和面积数据,并创建了时间差特征。作者比较了经验分析和主成分分析的效果,选择了Kernel Ridge Regression和Gradient Boosting Regressor作为基本模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Code on Github

Kaggle Competition 进阶 – House Prices Prediction 房价预测 Part 1
Kaggle Competition 进阶 – House Prices Prediction 房价预测 Part 2



最近校招笔试稍稍告于段落,也终于有机会继续我的 Machine Learning 学习。

我所选择的第二个项目是 Kaggle 平台上的房价预测项目,链接参照 房价预测overview

首先我的submission的结果是这样,

在这里插入图片描述
score的话是0.13650。其实这个结果比我在cross validation里面是要好的,比较意外,但是相比 LeaderBoard 前面控制在0.10之内的成绩来说还是挺不理想。所以下一步的计划是在我现在的结果的基础上,通过借鉴一些网上可以查到的别人的优秀思路和方法想办法把我的score提升到0.10左右。

不过这篇文章的内容就还是先简单介绍我的分析过程和模型方法。
具体的改进和提升就留到 Part 2 里面去。

项目概览 Overview

这次项目所要做的是根据数据给出的 Ames, Iowa, US 这个地方在过去四年间销售的房屋的房屋特征和房屋售价拟合出两者间的相关关系。并根据给出的房屋特征预测对于房屋的销售价格。预测结果好坏的衡量标准是 Root-Mean-Squared-Error (RMSE) ,

R M S E = ∑ i = 0 T ( y p r e d − y r e a l ) 2 T RMSE = \sqrt{\frac{\sum_{i=0}^T(y_{pred}-y_{real})^2}{T}} RMSE=Ti=0T(ypredyreal)2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值