气候数据分析:基础设置、术语与处理方法
1. 引言
气候数据分析本质上是一个大型的多变量(高维)问题。自20世纪初大气数据开始积累以来,大气科学家最初尝试的工具主要是探索性的,包括简单的一维时间序列图、二维散点图和后来的等高线图。正如Fisher(1925)所说:“图表虽不能证明什么,但能让突出特征一目了然;它们不能替代对数据的关键测试,但有助于提出此类测试,并解释基于这些测试得出的结论。”Hunter(1988)也指出:“分析环境数据最有效的统计技术是图形方法。它们在初始阶段有助于检查数据质量、突出数据的有趣特征,并通常能提示应进行的统计分析。有趣的是,在中间定量分析完成后以及最终阶段,图形方法仍有助于提供研究主要结果的完整且易于理解的总结。”Tukey(1977)也宣称:“一幅图的最大价值在于它迫使我们注意到从未预料到的东西。”
直到20世纪初,Gilbert Walker才开始在气象学中使用相关性(Walker 1909, 1923, 1924; Walker and Bliss 1932)。可以说,大多数多变量气候数据分析主要基于对系统中观测变量之间协方差的分析。协方差概念在大气科学中变得非常重要,已常规用于气候分析。不过,在进行稍微高级的分析之前,需要对数据进行处理。
2. 简单可视化技术
多变量数据通常由许多一维时间序列组成。时间序列是值$x_1, x_2 \cdots x_n$的序列,每个数据代表变量$x$的一个特定值。从概率角度看,$x$是一个随机变量,$x_i$是$x$在某个实验设置中的第$i$个实现。在日常语言中,$x_t$表示变量$x$在时间$t$的观测值。
为了对数据有基本了解,至少需要看到数据的某些方面。因此,
超级会员免费看
订阅专栏 解锁全文
777

被折叠的 条评论
为什么被折叠?



