房屋销售数据的探索性分析与可视化原则
1. 房屋销售数据的初步处理与探索
在对房屋销售数据进行分析时,首先对数据进行了一系列处理:
sfh = (sfh_df
.pipe(subset)
.pipe(log_vals)
.pipe(clip_br)
)
接下来,开始探究卧室数量与其他变量之间的关系。通过箱线图查看不同卧室数量房屋的价格分布:
px.box(sfh, x='new_br', y='price', log_y=True, width=450, height=250,
labels={'new_br':'Number of bedrooms','price':'Sale price (USD)'})
从箱线图中可以看出,从一到五间卧室,房屋销售价格的中位数逐渐增加,但对于六间以上卧室的大型房屋,对数转换后的销售价格分布几乎相同。
为了进一步探究,计算了每平方英尺的价格:
sfh = sfh.assign(
ppsf=sfh['price'] / sfh['bsqft'],
log_ppsf=lambda df: np.log10(df['ppsf']))
并创建了两个散点图,一个显示价格与建筑面积的关系(均进行对数转换),另一个显示每平方英尺价格与建筑面积的关系。结果发现,较大的房屋价格更高,且价格与
超级会员免费看
订阅专栏 解锁全文
954

被折叠的 条评论
为什么被折叠?



