数据可视化与分析:关键影响因素视觉的深入解析
1. 分类数据与连续数据的可视化呈现
在数据可视化中,当使用分类数据作为“Explain by”字段时,会生成柱状图。该柱状图的 x 轴显示该字段的值,而 y 轴则取决于“Analyze”字段的数据类型。如果“Analyze”字段也是分类数据类型,那么柱状图的高度代表解释“Analyze”字段所选值的行数百分比,同时会绘制一条红色的平均线。例如,在分析产品类别时,不同类别对应的柱状高度反映了其在整体中的占比情况。
若“Analyze”字段是连续数据类型,如“Sales Amount”列,y 轴则表示“Explain by”字段每个值对应的“Analyze”字段的平均值,同样会有一条红色的平均线。
当“Explain by”字段为连续数据时,关键影响因素视觉会计算该数据字段的标准差,并在左侧视觉中显示。例如,当“Sales Amount”增加 2139.70 时,“Product Category”为“Bikes”的可能性增加 13.19 倍,这里的 2139.70 就是标准差。
如果“Explain by”字段的连续数据与“Analyze”字段之间存在非线性相关性,关键影响因素视觉会对连续字段进行分箱处理。即将“Explain by”字段的值分组到不同的桶中,并将这些桶视为分类数据。例如,在分析“Employee Base Rate”和“Employee Vacation Hours”时,发现它们之间是非线性关系,于是将“Employee Vacation Hours”的值分为“21 或更少”和“超过 21”两组。
连续数据在“Explain by”字段中可能会生成条形图或散点图。当“Analy
超级会员免费看
订阅专栏 解锁全文
7万+

被折叠的 条评论
为什么被折叠?



