House Prices: Advanced Regression Techniques(房价预测)

该博客探讨了如何在Kaggle的'House Prices: Advanced Regression Techniques'竞赛中预测房价。作者首先介绍问题背景,然后通过分析79个变量来确定影响房价的关键因素。接着,他们对数据进行清洗和转换,并进行了初步的特征工程。虽然没有进行参数优化,但提供了数据来源链接以及一个简单的预测模型实现,为后续改进留出了空间。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

问题背景:购房者需要购买梦想中的房子,你需要从房子的79个变量中预测房子的价格是多少.

分为以下几个步骤:

  1. 导入数据观察每个变量特征的意义以及对于房价的重要程度
  2. 筛选出主要影响房价的变量
  3. 清洗和转换变量
  4. 测试和输出数据

https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data 这个是官方的地址可以从中获得数据文件

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

data_train = pd.read_csv('train.csv')
data_test = pd.read_csv('test.csv')
data_train.sample(3)
def drop_low_colums(df):
    data_corr=df.corr()
    d_list=data_corr[data_corr.SalePrice<0.5].index.tolist()
    return d_list

data_train=data_train.drop(['YearBuilt','1stFlrSF'], axis=1)
data_test=data_test.drop(['YearBuilt','1stFlrSF'], axis=1)
data_drop_train=data_train.drop(['Alley','PoolQC','Fence','MiscFeature'], axis=1)
data_drop_test=data_test.drop(['Alley','PoolQC','Fence','MiscFeature'], axis=1)
drop_list=drop_low_colums(data_drop_train)
data_drop_train1=data_drop_train.drop(drop_list, axis=1)
data_drop_test1=data_drop_test.drop(drop_list, axis=1)
data_drop_train1=data_drop_train1.fillna('0')
data_drop_test1=data_drop_test1.fillna('0')
from sklearn imp
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值