泰坦尼克号数据的统计分析与分类研究
在数据分析领域,对各类数据进行分类和统计分析是一项重要工作。本文将以泰坦尼克号乘客数据为例,介绍如何使用相关函数进行数据汇总、计算相对风险和赔率比,以及进行比例的标准误差估计、显著性检验等操作。
1. 数据汇总与频率表生成
我们可以使用 Incanter core 的 $rollup 函数对数据进行汇总。以下是生成频率表的函数:
(defn frequency-table [sum-column group-columns dataset]
(->> (i/$ group-columns dataset)
(i/add-column sum-column (repeat 1))
(i/$rollup :sum sum-column group-columns)))
(defn ex-4-2 []
(->> (load-data "titanic.tsv")
(frequency-table :count [:sex :survived])))
$rollup 函数需要三个参数:一个用于“汇总”一组行的函数、要汇总的列以及其唯一值定义感兴趣组的列。常见的汇总函数关键字有 :min 、 :max 、 :sum 、 :count 和 :mean 。
运
超级会员免费看
订阅专栏 解锁全文
6052

被折叠的 条评论
为什么被折叠?



