14、泰坦尼克号数据的统计分析与分类研究

泰坦尼克号数据的统计分析与分类研究

在数据分析领域,对各类数据进行分类和统计分析是一项重要工作。本文将以泰坦尼克号乘客数据为例,介绍如何使用相关函数进行数据汇总、计算相对风险和赔率比,以及进行比例的标准误差估计、显著性检验等操作。

1. 数据汇总与频率表生成

我们可以使用 Incanter core 的 $rollup 函数对数据进行汇总。以下是生成频率表的函数:

(defn frequency-table [sum-column group-columns dataset]
  (->> (i/$ group-columns dataset)
       (i/add-column sum-column (repeat 1))
       (i/$rollup :sum sum-column group-columns)))
(defn ex-4-2 []
  (->> (load-data "titanic.tsv")
       (frequency-table :count [:sex :survived])))

$rollup 函数需要三个参数:一个用于“汇总”一组行的函数、要汇总的列以及其唯一值定义感兴趣组的列。常见的汇总函数关键字有 :min :max :sum :count :mean

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值