分析目的:简单地介绍一个数据分析的初级项目,熟悉使用Python进行简单的数据分析的初级过程。
数据源:来及网络链接的链家全网北京二手房数据,读者可以从百度云盘中复制链接和提取码获取,进行动手实践。(最好使用python 3 完成此项目)
链接:https://pan.baidu.com/s/18R24WTkZIOFH_qvaWjixOw
提取码:61bp
一、数据初步认识:
需要导入要使用的机器学习包Sklearn和科学计算包Numpy,Pandas,可视化Matplotlib,Seaborn。
①初步查看数据
②查看缺失值,异常值和大概的数据统计进行合理分析:
describe可以包含平均数,标准差,中位数,最小值,最大值,25%分位数,75%分位数的数据;图一可以看出Elevator 存在大量的缺失数据,15440<23677;图二可以看出min(Size)=2,max(fllor)=57,这些数据不太符合一般房屋状况就应该注意了:
二、数据处理
Id 特征虽然在数据列表中,但是并没有实际意义,直接将其移除新增加一
北京二手房价预测(数据分析)
最新推荐文章于 2024-08-04 01:09:53 发布