5、数据统计与可视化分析

数据统计与可视化分析

数据统计与可视化分析

1. 比较可视化

当我们想要比较英国和俄罗斯选民数据的分布时,直接在直方图上绘制两个数据集不是一个好主意,原因如下:
- 投票区的规模不同,导致分布的均值差异很大。
- 投票区的总数差异大,直方图的柱子高度会不同。

为解决这些问题,我们可以使用概率质量函数(PMF)。PMF与直方图有很多共同之处,但它绘制的是从分布中抽取的数字恰好等于给定值的概率,且PMF下的面积等于1,这确保了不同数据集的图下面积具有可比性。不过,投票区的规模和分布的均值仍无法直接比较,这可以通过归一化来解决。

归一化是将一个或多个值序列对齐的通用任务,目标是便于比较两个或多个数据系列。一种基本的归一化方法是确保每个系列的值在0到1的范围内,对于我们的数据,可以通过除以最大值来实现:

(defn as-pmf [bins]
  (let [histogram (frequencies bins)
        total     (reduce + (vals histogram))]
    (->> histogram
         (map (fn [[k v]]
                [k (/ v total)]))
         (into {}))))

使用这个函数,我们可以对英国和俄罗斯的数据进行归一化,并在同一坐标轴上并排绘制:

(defn ex-1-32 []
  (let [n-bins 40
        uk
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值