【Python数据分析实战项目】之 住房月租金预测大数据赛分析|详解
注:图片源于http://www.dcjingsai.com
完整源代码及训练测试集数据请使劲戳 ☛☛ https://github.com/Juuuusper/Housing-Rent-Prediction
—— —— —— 懒惰分界线 —— —— ——
小白第一次分享该类型,? 请多指教\( ̄︶ ̄*\))
—— —— —— 懒惰分界线 —— —— ——
Table of Contents
【Python数据分析实战项目】之 住房月租金预测大数据赛分析|详解
完整源代码及训练测试集数据请使劲戳 ☛☛ https://github.com/Juuuusper/Housing-Rent-Prediction
1.项目任务
1.1数据来源
- 本项目使用DC竞赛住房月租金预测大数据赛上提供的提供脱敏处理后的真实租房市场数据集进行分析
- 数据为某地4个月的房屋租赁价格以及房屋的基本信息。训练集为前3个月采集的数据,共196539条;测试集为第4个月采集的数据,相对于训练集,增加了“id”字段,为房屋的唯一id,且无“月租金”字段,其它字段与训练集相同,共56279条。
- 本项目对该数据集中的train及test两个csv数据文件进行分析
- 该数据集下载地址为:http://www.dcjingsai.com/
1.2分析目的
利用有月租金标签的历史数据建立不同模型,实现基于房屋基本信息的住房月租金预测,为该城市租房市场提供客观衡量标准。
1.3分析问题
本项目将以训练集数据作为样本训练模型,利用不同模型根据预测集数据进行租金预测,根据结果误差对不同模型性能进行比较,希望确定适用于住房月租金预测的模型,为我国的房地产行业带来一定程度的借鉴参考意义。
2.项目步骤
2.1导入包
2.2数据读取
为了方便查阅,本项目使用魔法命令(以%开始)将matplotlib图表直接嵌入在Notebook之中
用Pandas包的 read_csv()函数分别将文件train.csv和test.csv读入至对应的DataFrame变量中
显示trains的前5行数据
查看trains维度(形状)
查看trains的统计性描述信息
显示test的前10行数据