数据统计与可视化分析
1. 比较可视化
当我们想要比较英国和俄罗斯选民数据的分布时,直接在直方图上绘制两个数据集不是一个好主意,原因如下:
- 投票区的规模不同,导致分布的均值差异很大。
- 投票区的总数差异大,直方图的柱子高度会不同。
为解决这些问题,我们可以使用概率质量函数(PMF)。PMF与直方图有很多共同之处,但它绘制的是从分布中抽取的数字恰好等于给定值的概率,且PMF下的面积等于1,这确保了不同数据集的图下面积具有可比性。不过,投票区的规模和分布的均值仍无法直接比较,这可以通过归一化来解决。
归一化是将一个或多个值序列对齐的通用任务,目标是便于比较两个或多个数据系列。一种基本的归一化方法是确保每个系列的值在0到1的范围内,对于我们的数据,可以通过除以最大值来实现:
(defn as-pmf [bins]
(let [histogram (frequencies bins)
total (reduce + (vals histogram))]
(->> histogram
(map (fn [[k v]]
[k (/ v total)]))
(into {}))))
使用这个函数,我们可以对英国和俄罗斯的数据进行归一化,并在同一坐标轴上并排绘制:
(defn ex-1-32 []
(let [n-bins 40
uk
数据统计与可视化分析
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



