
数据整理
文章平均质量分 55
小Li先生
The only way to do great work is to love what you do.
展开
-
循环计算逻辑回归模型
统计计算模型的P值或者截距等变量是常有的事情,一般在变量不多的情况下,多数一个一个的手动计算,但不免有时原始数据的改动,导致一系列的变动,很不好受。这时R语言的作用就很明显,只需要run一下,就可以重新处理一遍数据。同时R语言中的for循环或者apply族循环,也是解放双手的一大利器。今天举个小栗子,说说循环这件事。for循环1 数据格式2 建立`formula`连接3 建立空数据集4 `for`循环5 合并及导出数据1 数据格式136行27列,27个变量,第一个变量与其余26个变量都需要建原创 2021-11-02 21:25:42 · 822 阅读 · 2 评论 -
R语言时间序列常用lubridate包—2
lubridate包—2二、日期时间成分1 时间成分获取2 时间计算(更改)3 时期3 阶段4 时区二、日期时间成分1 时间成分获取> datetime <- ymd_hms("2016-07-08 12:34:56")> year(datetime)[1] 2016> month(datetime)[1] 7> mday(datetime)#一个月的第几天[1] 8> yday(datetime)#一年的第几天[1] 190> wday(d原创 2021-09-21 22:29:45 · 939 阅读 · 2 评论 -
R语言时间序列常用lubridate包—1
日期时间函数加载包一.创建日期1.简单创建2.字符串创建3.日期成分创建加载包> library(lubridate)> library(tidyverse)> library(nycflights13)一.创建日期1.简单创建举例> today() #具体到日[1] "2021-09-20"> now() #具体到秒[1] "2021-09-20 20:49:51 CST"# 计算> as.Date(today())-as.Date("2原创 2021-09-20 22:11:47 · 561 阅读 · 0 评论 -
R语言缺失值判断与处理mice包-3
用R语言填充缺失值mice1.缺失值填充方法删除平均值、中位数回归插值多元回归插值2.mice包介绍对于缺失值数据的处理,用3个步骤来进行定义。填充:mice()函数,从一个包含缺失数据的数据框开始,然后返回一个包含多个完整数 据集的对象,每个完整数据集都是通过对原始数据框中的缺失数据进行插而生成的。分析:with()函数,可依次对每个完整数据集应用统计模型,分析填充的结果。优化:pool()函数,将这些单独的分析结果整合为一组结果,最终模型的标准误和p值,都将准确地转载 2021-09-06 22:04:03 · 9294 阅读 · 21 评论 -
R语言缺失值判断与处理-2
R语言-缺失值判断以及处理上次说了关于某个固定值,异常值,缺失值等的固定位置,今天详细说下如果数据列中出现缺失值,该如何处理。向量组中的不说了,一般实践都是数据框。1.数据框缺失值判断数据框类型判断缺失值is.na、缺失值的填补which、缺失值所在行的删除na.omit1.数据列2.判断is.na()3.对应行列位置which(arr.ind = T)4.删除na.omit5.统计缺失值数量sum,mean,table6.计算忽略(平均值,求和,sd,se等等)na.rm=TRUE转载 2021-09-05 18:29:40 · 1652 阅读 · 0 评论 -
R语言查找指定值的位置(行列)1
坚持写东西真的不容易,已经停更好久了,哎!用R查找数据是常有的事情,例如:我想知道A列的空值(NA)或者0或者异常值在哪一行,当然1000行内的扫一眼就好,如果上万行的怎么办呢?目录1. 数据列介绍2. 问题及解决办法查找空值位置3. 延伸1. 数据列介绍我这里有个5W+行24列的数据列> dim(ms_data3)[1] 509823 24> str(ms_data3)'data.frame': 509823 obs. of 24 variables: $ X原创 2021-09-03 15:47:46 · 11621 阅读 · 3 评论 -
R语言学习(常用)网址和书籍
提升Thomas Rahlf, Data Visualisation with R – 111 ExamplesR Graphics Cookbook (ggplot)详细介绍博客RStudio Cheatsheets (速记卡片)RStudio 提供的书单(英文)入门R语言实战(第二版)R数据科学原创 2021-07-22 10:40:19 · 1177 阅读 · 3 评论 -
如何提取多元回归lm里面的全模型的R2和p值
回归模型提取R2和p值all_ck <- function(formula,i){ lm_data <- lm(formula,data=list[[i]]) summar <- summary(lm_data) b <- summar$coefficients[1,1] k <- summar$coefficients[2,1] R2 <- summar$r.squared # tstats <- coef(lm_data) / sqrt原创 2021-07-21 17:10:33 · 4955 阅读 · 1 评论 -
R语言-词云(个性化绘制)
个性化词云原创 2021-05-29 22:13:46 · 1700 阅读 · 0 评论 -
数据处理小技巧——R语言默认颜色
默认颜色library(scales)show_col(hue_pal()(n)) #n为1~6原创 2021-05-27 23:21:58 · 2101 阅读 · 0 评论 -
R语言dplyr包中的filter函数
R语言日常笔记(1)filter函数经常忽略的两个用法1.单列多因素挑选city列为武汉市和month列为1:5或9:12(观测值)> ms_wh <- filter(ms_data2,city=="武汉市"&month %in% c(1:5,9:12))> head(ms_wh) station year month day precipitation meanTem sunshine minTem maxTem site province city1原创 2021-05-27 23:17:13 · 5032 阅读 · 0 评论 -
正态分布函数概率运算dnorm/pnrom/qnrom/rnorm
R语言开发之正态分布了解下生物统计(7)——R中dnorm, pnorm, qnorm与rnorm的区别原创 2021-04-07 15:55:58 · 4454 阅读 · 0 评论 -
R语言循环语句while和repeat
R语言循环语句1、for语句2、while循环语句3、repeat语句4、举例5、引用1、for语句R语言批量处理1——输出list文件及数据框长宽转换R语言批量处理2——导入excel,定位提取合并为数据框data.frame2、while循环语句注意执行顺序,先执行f[i]+f[i+1]<1000,然后往下走,与下面repeat有区别例子 计算斐波那契数列> f=1> f[2]=1> i=1> while(f[i]+f[i+1]<1000)原创 2021-04-06 17:51:48 · 2657 阅读 · 0 评论 -
R语言随机抽样及分层抽样
R语言随机抽样及分层抽样问题1、计算层次个数2、固定随机提取3、随机抽样问题> dim(ml_data)[1] 201253 11场景:20万行数据中,抽取每个月中的任意一天的数据,即,2019-9-6/2019-9-7/2019-9-8…1、计算层次个数dplyr包中count函数计算出每天的数据量,然后dim查看数据列346行,346个层次,346天。> bb <- count(ml_data,date)> > head(bb)原创 2021-04-05 16:29:49 · 9341 阅读 · 5 评论 -
字符串设置stringr-1
stringr包字符串处理笔记1引用1、字符串连接2、拆:str_split替换:str_replaceu与str_replace_all字符串处理中最为常见的四种手段有“拆、替、抽、取”,stringr包有众多处理字符串的函数,一般都是以str_开头命名,便于记忆。引用【R语言 字符串处理】stringr 包的强大之处Stringr包处理字符串官方介绍1、字符串连接关于字符串的连接我习惯用paste()stringr包中也有类似的函数str_c两个函数基本一样,都有sep(多变多) c原创 2021-04-02 16:23:33 · 313 阅读 · 0 评论 -
R语言数据去重
R语言数据列去重1、unique函数2、duplicated函数3、distinct(dplyr包)4 引用unique对于一个向量管用,对于matrix、data frame那些指定列去重就不管用了1、unique函数查看重复的方式,有点像分类变量个数一样,unique() 或者 table() 都是很好的方式去检测。> c a b d1 1 a 12 2 b 13 3 c 14 1 a 15 2 b 16 3 c 1> unique(c) a b d原创 2021-03-25 16:35:18 · 14629 阅读 · 0 评论 -
ggplot2箱线图绘制规范
箱线图1、模板2、数据3、导入数据整理4、画图5 最终图今天一朋友想学R语言,问我如何学,我建议是针对问题,如何针对问题,比如文献找到一个图,照着画出来就对了。他给我找了个箱线图,这个百度都有代码,但关于数据的排列,转换,提取,我觉得对于小白肯定迷迷糊糊,因为有的画图软件的数据排列方式的思维方式已经固定,可能你不能很好的接受ggplot的数据排列。1、模板他发我的模板和他自己做的2、数据他发我的数据格式,一看就知道是那个软件,稍微整理后保存csv3、导入数据整理变量类型转换、数据列转换、数原创 2021-01-12 12:40:55 · 2048 阅读 · 5 评论 -
R语言科研绘图系列1——数据整理篇2
招1 图片合并及对齐ggplot2绘图后多个图片合并,及横纵对齐问题?require(cowplot)p <- plot_grid(SOD_l,POD_l,CAT_l,MDA_l,H2O2_l,阴离子_l,ncol=2,align="vh")##垂直/水平对齐坐标轴p原创 2021-01-05 12:05:53 · 579 阅读 · 0 评论 -
R语言科研绘图系列1——数据整理篇
p <- plot_grid(SOD_l,POD_l,CAT_l,MDA_l,H2O2_l,阴离子_l,ncol=2,align="v")##垂直对齐坐标轴p原创 2020-11-18 10:52:04 · 1416 阅读 · 0 评论 -
如何在Excel中突出显示不同颜色的重复值?(转载)
转载连接:如何在Excel中突出显示不同颜色的重复值?简介在Excel中,我们可以用一种颜色轻松地突出显示一列中的重复值 条件格式但是,有时候,我们需要突出显示不同颜色的重复值,以便快速轻松地识别重复项,如下面的截图所示。 你怎么在Excel中,我们可以用一种颜色轻松地突出显示一列中的重复值 条件格式但是,有时候,我们需要突出显示不同颜色的重复值,以便快速轻松地识别重复项,如下面的截图所示。 你怎么能在Excel中解决这个任务?事实上,我们没有直接的方式来完成这项工作在Excel中,但是,下面的VBA转载 2020-12-24 11:13:18 · 14495 阅读 · 16 评论 -
R语言批量处理1——输出list文件及数据框长宽转换
1、上问题,问题一,如图1原始数据列,我想把数据列变成图2的格式,废了好大力气也没做完成,不过还好,最后能勉强用,以后改进。2、解决办法1)我很快想到用reshape2包中的数据列转换中长转宽dcast,但是,遗憾的是我发现只能转换其中一个变量,如此多的变量我不能一个个转换后再合并吧,工作量不小,以前也遇到过如此情况,经常逃避解决,今天,我选择了勇敢面对。一步步来吧。2)我发现value.var可以赋值你想要的转换变量。然后我将我第一行所有的变量名赋值给colnameyieldc2。colname原创 2020-06-01 16:26:55 · 4370 阅读 · 0 评论 -
R语言批量处理2——导入excel,定位提取合并为数据框data.frame
问题:R语言批量导入数据生成list表,然后提取每个list表相同变量数据,生成数据框形式data.frame。文章目录问题:一、apply族应用二、批量excel数据导入三、list表中的数据提取一、apply族应用常用apply、lapply和sapply掌握R语言中的apply函数族二、批量excel数据导入这个前面文章已经写了,基本思路为1.赋值文件路径;2.提取路径下所有文件名dir(path);3.迭代生成所有文件的路径名,paste(),sapply(),4.迭代导入所有原创 2020-11-20 11:25:11 · 4092 阅读 · 0 评论