近期主要学习特征工程的数据清洗部分内容。通过实践过程发现了从来没有遇到的问题,也只是自己学习刚刚开始,对python的相关知识不够熟练。
数据来自于某数据集——北京房价预测的数据清洗实践。
导入数据集,并看数据信息,变量,数据类型等。
data = pd.read_csv('houseInfo_2018_09_10.csv')
bj_data = data[data['region'] == 'bj']
print(bj_data.info())
print(bj_data.head())
Int64Index: 48324 entries, 418423 to 627466
Data columns (total 22 columns):
introduction_house 48324 non-null object
community_house 48324 non-null object
href_house 48324 non-null object
unit_house 48324 non-null object
size_house 48324 non-null object
direction_house 48324 non-null object
decoration_house 48313 non-null object
elevator_house 47437 non-null object
type_house 48324 non-null object
years_house 48311 non-null object
area_house 48324 non-null object
interests_house 48324 non-null object
watch_times 48324 non-null object
submit_period 0 non-null float64
years_period 39804 non-null object
tax_free 45673 non-null object
total_price 48324 non-null float64
smeter_price 48324 non-null object
region 48324 non-null object
info_cluster 0 non-null object
info_flood 0 non-null object
info_follow 0 non-null object
introduction_house community_house href_house unit_house size_house direction_house decoration_house elevator_house type_house years_house area_house interests_house watch_times submit_period years_period tax_free total_price smeter_price region info_cluster info_flood info_follow
418423 长城脚下,精装修别墅,满五唯一,业主诚意出售。 清凉盛景 https://bj.lianjia.com/ershoufang/101103236018.html 5室3厅 269.93平米 南 北 精装 NaN 底层(共2层) 暂无数据 延庆其它 3人关注 0次带看 NaN NaN 房本满五年 998.0 单价36973元/平米 bj NaN NaN NaN
418424 商品房 满五年 家庭名下一套住房 环境好 清凉盛景 https://bj.lianjia.com/ershoufang/101102750912.html 4室2厅 269.93平米 南 北 精装 NaN 2层 2010年建暂无数据 延庆其它 14人关注 0次带看 NaN NaN 房本满五年 1250.0 单价46309元/平米 bj NaN NaN NaN
418425 湖南小区 2室1厅 179万 湖南小区 https://bj.lianjia.com/ershoufang/101103256056.html 2室1厅 71.45平米 南 北 其他 NaN 中楼层(共6层) 1996年建暂无数据 延庆其它 8人关注 0次带看 NaN NaN 房本满五年 179.0 单价25053元/平米 bj NaN NaN NaN
418426 清凉盛景 4室2厅 1180万 清凉盛景 https://bj.lianjia.com/ershoufang/101103166425.html 4室2厅 252.16平米 南 北 精装 NaN 底层(共2层) 2010年建暂无数据 延庆其它 0人关注 0次带看 NaN NaN 房本满五年 1180.0 单价46796元/平米 bj NaN NaN NaN
424545 君山别墅 边户独栋 391平毛坯房 君山别墅 https://bj.lianjia.com/ershoufang/101101025128.html 3室2厅 391.86平米 南 北 毛坯 NaN 底层(共2层) 2011年建暂无数据 密云其它 107人关注 1次带看 NaN 房本满两年 房本满五年 1000.0 单价25520元/平米 bj NaN