我们阅读量破万的综述:RNA-seq这十年(3万字长文综述)
给粉丝朋友们带来了很多理解上的挑战,所以我们开辟专栏慢慢介绍其中的一些概念性的问题,上一期:
表达矩阵的归一化和标准化,去除极端值,异常值
描述数据,或者解读数据的时候,不能只关注其“集中性”和“离散性”指标(如均数、中位数、标准差、四分位数等),还得关注原始数据的分布形式。
箱线图是能同时反映数据统计量和整体分布,又很漂亮的展示图。
一、Anscome's Quartet
Anscombe的四重奏是四个数据集,这些数据集有着几乎相同的描述统计指标(均数,方差,相关性),但却有着区别明显的数据分布,如下图。
Anscome's Quartet
通过这些数据集的分布,使用 简单的汇总统计数据检查时,所有 四个集合都是 相同的,但在 绘制数据集分布时会有 很大差异。 “数值计算是准确的,可是图表太粗糙了”。不仅要关注数据的统计学指标,更要关注 异常值和其他对统计特性有影响的指标。
而数据分布是在数据分析中常常会被大多人所忽略的一步。 统计学模型都是基于统计分布提出的,如果仅凭一些描述统计学的指标来判断,会造成很大的误差,这时,了解 数据集的分布是很必要的。
二、描述统计与数据分布
datasauRus是Anscome's Quartet的一个进阶,包含有13个描述统计指标相同但分布差异极大的数据集。
通过R语言来探索一下datasauRus:
# 安装datasauRus的R扩展包
install.packages("datasauRus")
# 加载R包
library(datasauRus)
if(requireNamespace("dplyr")){
suppressPackageStartupMessages(library(dplyr))
datasaurus_dozen %>%
group_by(dataset) %>%
summarize(
mean_x = mean(x),
mean_y = mean(y),
std_dev_x = sd(x),
std_dev_y = sd(y),
corr_x_y = cor(x, y)
)
}
这13个数据集的描述统计指标完全一样。
# A tibble: 13 x 6
&nb