
统计学算法与技术
文章平均质量分 51
统计算法与技术专栏
niewzh
QQ:1468619361 添加请说明来意
展开
-
1960-2020年中国气温线性趋势变化的时空差异及影响因素
说明:文章为笔者原创随笔,引用请标明出处。摘 要 全球变暖显著影响,然而,我们对气温变化的季节和空间差异了解有限。分析了中国1960-2020年气温变化的时空差异和影响因素。首先,分析了全国和5个不同气候区域年平均气温的变化趋势,结果表明1990前后全国和不同气候区域的年平均气温均出现显著突变。1990年后全国和不同区域年平均气温变暖加快,不同季节变化不同:春、夏季增温加快,冬季增温减缓,而秋季全国气温趋势变化不大。随后,利用地理探测器定量比较了两个阶段气温变化与下垫面影响因子的关系。植被类型、纬度地带原创 2021-10-21 10:38:06 · 13249 阅读 · 1 评论 -
Pearson 相关分析 理论与应用
1 前提假设使用Pearson相关分析时,需要考虑满足5个假设。1.两个变量都是连续变量。2.两个连续变量应当是配对的,即来源于同一个个体。3.两个连续变量之间存在线性关系,通常做散点图检验该假设。4.两个变量均没有明显的异常值。Pearson相关系数易受异常值影响。5.两个变量符合双变量正态分布。2 验证前提假设2.1两个连续变量之间存在线性关系Pearson要求两个变量之间存在线性关系。要确定是否存在线性关系,需要查看两个变量的散点图。如果散点图大致呈一条...原创 2021-08-09 10:27:55 · 20352 阅读 · 0 评论 -
R语言数据基础离散化(分箱)之——手动定义间断点
R语言本身提供手动定义间断点进行离散化的函数 cut参数如下:cut(x,breaks,labels=NULL, include.lowest=FALSE,right=TRUE,dig.lab=3, ordered_result=FALSE,...)其示例代码如下:...原创 2021-06-08 22:22:13 · 1223 阅读 · 0 评论 -
R语言树轮数据可视化二——以contour图展示
一般而言,树轮数据多以折线图进行展示,清楚展示每条序列的变化,但序列一多通常难以比较。笔者尝试使用contour图进行展示,可以清楚的展示高低生长期。使用 filled.contour(x, y, z, levels, col) 函数对一个采样点的不同树芯宽度进行可视化,效果如下:其中横轴表示时间(年),纵轴表示不同树轮序列的宽度。可以看出,每条序列基本都存在先高生长后低生长的趋势。另外,不同序列的敏感性是不同的,需要标准化后进行进一步分析。全部代码如下:library(dplR)原创 2021-05-24 09:23:18 · 2490 阅读 · 1 评论 -
R语言提取单点的cru格点数据
以下以提取降水的cru格点数据为例,温度的数据类似。inputpath <- 'data/cru_ts4.05.1901.2020.pre.dat.nc' #文件存储路径library(ncdf4) # package for netcdf manipulationnc_data <- nc_open(inputpath)print(nc_data)# Save the print(nc) dump to a text file{ sink('ncdata.txt')原创 2021-05-23 22:39:43 · 1192 阅读 · 3 评论 -
Google Trends 的玩法1——时间序列分析
Google Trends是谷歌公司的公共网络设施,它基于谷歌搜索,它显示整个世界各地区的一个特定搜索项搜索量。我们可以查看2004年来逐月的某关键词搜索量,以及其以国家/城市为单位的空间分布特征。下面以 “柿子” 为例,其搜索量的时间序列有明显的季节周期变化:其每到 10-11月份 会达到峰值,其空间分布特征如下:由于我们是输入中搜索,其热点区域都是中文为主的城市,当我们换为英文“Persimmon”:时间序列结果类似,而其空间分布特征发生了变化:其他季节性的水果.原创 2021-05-12 10:34:13 · 903 阅读 · 0 评论 -
r语言实现小波分析
实现效果左图为原始数据,右图为小波分析加显著性检测结果所需包:WaveletComp一、安装并加载WaveletComp包install.packages('WaveletComp')加载:library('WaveletComp')二、创造数据并执行小波分析及模拟series.length = 6*128*24x1 = periodic.series(start.period = 1*24, length = series.length)x2 = p..原创 2021-04-10 19:21:17 · 6764 阅读 · 3 评论 -
R语言netcdf格式数据读取与处理
在本教程中,我们将打开一些存储在netCDF文件中的地理空间数据。我们将选择感兴趣的变量和时间范围,并将数据导出到GeoTIFF,以便在R或其他地理空间软件中继续分析。(译者注:新手看可能不知道每个函数的用法,可以先根据文档仿写,记住即可,想要深入研究每个函数的用法,使用RStudio打开包帮助阅读即可)本文读取netcdf并可视乎数据的结果:NetCDF数据集示例首先,我们需要一些数据。作为一个例子,我们将使用北极地区植被绿色度趋势的一些数据。可通过以下链接从ORNL DAAC获取此数据:翻译 2021-04-10 16:46:50 · 12739 阅读 · 2 评论 -
气象数据处理——数据表重排列(长表宽表转换)
一、长表转换为宽表好多气象数据(如气象站点、格点等)是用长表存储的,其格式如下:长表格式常用于数据的存储,尤其对于多维数据的存储十分方便,然而并不利于数据分析。R语言tidyr包中的pivot_wider函数 可以将长表变为宽表,适用于将多个变量保存到了一列的情况。如上图示例,我们需要将表中数据转换成:每年(列)不同站点(行)的观测值,我们使用以下代码:d.tempwider <-d.monthtemp1 %>%pivot_wider(names_from = stat原创 2021-04-08 18:17:48 · 684 阅读 · 0 评论 -
R语言计算多变量两两之间的相关关系及显著性
当数据存储为data.frame格式时,我们通常先将其转为可以使用 PerformanceAnalytics 包之间求相关,并将结果可视化。chart.Correlation(dda, histogram=TRUE, pch=19)其中,dda 为data.frame格式的数据,要求数据格式为 numeric ,如果不是,要先转化...原创 2021-04-08 11:48:34 · 7948 阅读 · 1 评论 -
R语言在矢量地图上绘制分级设色散点图
实现效果:R语言中ggplot2包提供绘制地图、散点图的方法,是实现在矢量地图上绘制分级设色散点图核心包绘制多边形geom_polygon(data,aes,fill, colour) 绘制点 geom_point .....0、需要用到的包library(maptools) # 读取shp数据常用,可以将shp数据读取为SpatialPolygonsDataFrame 格式,为DataFrame(数据帧)子类,也称为空间多边形数据帧library(ggplot2) #绘图核...原创 2021-01-20 20:36:51 · 2228 阅读 · 0 评论 -
统计中的“不相关”与“线性无关”
以上思维导图,看完即可理解。下述是文字介绍。这二者是统计新手与老手都很容易混淆的两个概念,以下辨明一下:两变量“不相关”不相关是指二者互相独立,没有相关关系。注如森林里每棵树的树叶个数与村子里每个村民的体重...二者显然无关两变量“线性无关”线性这里单指直线,线性无关是指:没有一次函数关系。如果两变量是3次方的相关关系,这里也叫线性无关。其图示如下:‘可以看出,如果两变量不相关,则必有线性无关。反之则不一定。...原创 2020-12-19 10:43:13 · 5991 阅读 · 1 评论 -
R 语言实现 Superposed Epoch Analysis 时序叠加分析
一、安装并引用 “burnr” 包Superposed Epoch Analysis可以使用 “burnr” 包 来实现,首先安装 “burnr” 包:命令行输入:install.packages('burnr')其次将 burnr 包添加到引用:library(burnr)二、准备输入数据Superposed Epoch Analysis 的输入数据格式如下:1、 准备时间序列数据放入EXCEL,格式如下:之后,读入R,并修改行名称为年份:dat...原创 2020-12-17 11:26:23 · 2632 阅读 · 8 评论 -
R语言实现EMD分析
R语言实现EMD分析非常简单,使用EMD包即可。数据以frame存储时,只需要设置一列作为emd()函数的参数即可:remd=emd(all$runoff)remd即输出的所有IMF,同样以frame存储。可以直接导出为csv.原创 2020-12-13 18:04:44 · 2238 阅读 · 0 评论 -
一阶差分(First Difference)
时间序列的处理方法:对相邻时期做差分所构成的对时间序列的转换,即用后一时期减去前一时期。原创 2020-12-11 20:53:02 · 30251 阅读 · 0 评论 -
Excel实现一个基础的蒙特卡洛模拟
蒙特卡洛模拟貌似名字非常学术,其实其原理非常简单。蒙特卡洛是一个著名赌场的名字,将其命名为蒙特卡洛模拟是为了形象表示其方法含义。如果放在今天命名的话,也可以将其称为拉斯维加斯模拟或者澳门模拟。简而言之,蒙塔卡洛模拟通过将问题转化为概率统计问题进行求解。比如求圆周率的数值,有很多很多方法。蒙特卡洛模拟的方法是,以下图为例子进行说明:向图中x,y范围为[0,1]的正方形区域随机投点,统计落入1/4圆内的次数。在投了足够多的次数以后,计算落入圆内的次数/总次数,即为落入圆内的概率。这个概率值即接近..原创 2020-09-26 13:53:44 · 11824 阅读 · 1 评论 -
回归分析汇总
一、回归分析概述回归分析是指用一个方程式建立一个因变量与一个或多个自变量之间的关系,可用于预测或推算。二、回归分析类型1、线性回归(Linear Regression):线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。2、逻辑回归(Logistic Regression):又称为对数回归。当因变量的类型属于二元(1 / 0,真/假,是/否)变量时,我们就应该使用逻辑回归。3、多项式回归(Polynomial Regression)原创 2020-09-17 22:30:53 · 1533 阅读 · 0 评论