箱线图怎么判断异常值_箱线图的生物学含义

本文详细介绍了箱线图的原理和绘制方法,强调了它在揭示数据分布和异常值检测中的作用。通过Anscombe's Quartet和datasauRus数据集的例子,展示了即使统计指标相同,数据分布也可能显著不同。箱线图能直观地展示样本分布,尤其适用于不对称或异常值较多的数据。此外,文中还探讨了箱线图与其他数据可视化方法的比较,以及在生物学研究中的重要性,特别是在转录组学数据比较中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

我们阅读量破万的综述:RNA-seq这十年(3万字长文综述)

4c98dab67dbe581367c5f3904d0f4bb8.png

给粉丝朋友们带来了很多理解上的挑战,所以我们开辟专栏慢慢介绍其中的一些概念性的问题,上一期:

表达矩阵的归一化和标准化,去除极端值,异常值

描述数据,或者解读数据的时候,不能只关注其“集中性”和“离散性”指标(如均数、中位数、标准差、四分位数等),还得关注原始数据的分布形式。

箱线图是能同时反映数据统计量和整体分布,又很漂亮的展示图。

一、Anscome's Quartet

Anscombe的四重奏是四个数据集,这些数据集有着几乎相同的描述统计指标(均数,方差,相关性),但却有着区别明显的数据分布,如下图。

b62823760fc94de07465275e96be3a2e.png

Anscome's Quartet


通过这些数据集的分布,使用 简单的汇总统计数据检查时,所有 四个集合都是 相同的,但在 绘制数据集分布时会有 很大差异“数值计算是准确的,可是图表太粗糙了”。不仅要关注数据的统计学指标,更要关注 异常值和其他对统计特性有影响的指标
而数据分布是在数据分析中常常会被大多人所忽略的一步。 统计学模型都是基于统计分布提出的,如果仅凭一些描述统计学的指标来判断,会造成很大的误差,这时,了解 数据集的分布是很必要的。

二、描述统计与数据分布

datasauRus是Anscome's Quartet的一个进阶,包含有13个描述统计指标相同但分布差异极大的数据集
通过R语言来探索一下datasauRus:

# 安装datasauRus的R扩展包
install.packages("datasauRus")

# 加载R包
library(datasauRus)
if(requireNamespace("dplyr")){
  suppressPackageStartupMessages(library(dplyr))
  datasaurus_dozen %>% 
    group_by(dataset) %>% 
    summarize(
      mean_x    = mean(x),
      mean_y    = mean(y),
      std_dev_x = sd(x),
      std_dev_y = sd(y),
      corr_x_y  = cor(x, y)
    )
}

这13个数据集的描述统计指标完全一样。

# A tibble: 13 x 6
 &nb
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值