数据探索分析:从宠物狗到房屋销售价格
一、数据可视化基础
1.1 箱线图的作用
箱线图(也称为盒须图)能直观呈现数据分布的重要统计信息。以不同体型狗的身高箱线图为例,它清晰展示了狗的体型分类基于身高,因为各体型组的身高范围几乎无重叠。箱线图的箱体代表第 25 百分位数、中位数和第 75 百分位数,须线显示数据尾部,异常大或小的值也会被绘制出来。不过,箱线图无法像直方图或密度曲线那样展示数据的详细形状,主要用于显示数据的对称性、偏态、长短尾以及异常值。
1.2 两个定性特征的关系分析
当分析两个定性特征的关系时,重点在于比例。例如,研究狗的品种对儿童的适宜性与品种大小的关系,可计算不同适宜性类别(高、中、低)下,小、中、大型狗的比例,如下表所示:
| 适宜性\体型 | 大型 | 中型 | 小型 |
| — | — | — | — |
| 高 | 0.37 | 0.36 | 0.27 |
| 中 | 0.29 | 0.34 | 0.37 |
| 低 | 0.1 | 0.2 | 0.7 |
可以使用线图或并排条形图来可视化这些比例。线图中,每个适宜性水平对应一条线(一组相连的点),展示了各适宜性类别下体型的分布。从图中可看出,对儿童适宜性低的品种主要是小型狗。
import plotly.express as px
import pandas as pd
prop_table_t = pd.DataFrame({
'high': [0.37, 0.36, 0.27],
'medium': [
超级会员免费看
订阅专栏 解锁全文
1411

被折叠的 条评论
为什么被折叠?



