
data cleaning
文章平均质量分 79
Distrlili
这个作者很懒,什么都没留下…
展开
-
dplyr学习笔记
#数据清理 ——dplyr package加载包 library(dplyr) library(hflights) #hflights是2011年从休斯顿起飞的航班创建本地数据框 tbl_df用于创建一个”local data frame”,相当于一个包装器,可以把data frame,sql数据类型转换成tbl对象。 优势在于打印的时候显示比较智能化,根据显示屏分辨率来确定显原创 2015-11-26 11:55:38 · 2633 阅读 · 0 评论 -
list元素
关于list的一点总结: pts <- list(x = c(“a”,”b”,”v”), y = 1:4, z = list(1:3)) 下标索引[]和[[]]的区别: 单个中括号”[]”是对原始列表取子集操作,返回一个新的列表(子列表); 双重中括号”[[]]”一次只能提取列表的一个组件,返回组件本身的类型。 所以在添加列表元素时,要用双重中括号。 例如: pt1 <- l原创 2016-05-06 08:50:52 · 559 阅读 · 0 评论 -
aggregate对有相同元素的列进行共同的变化
Aggregate()函数 分组计算描述性变量 语法如下: ## for class “data.frame” aggregate(x, by, FUN, …, simplify = TRUE) 其中,by指定分组变量,必须是list对象。## S3 method for class ‘formula’ aggregate(formula, data, FUN, …, subset,原创 2016-05-06 08:30:06 · 994 阅读 · 0 评论 -
read.table()读取数据文件
从带分隔符的文本文件导入数据read.table()read.table(file, header = FALSE, sep = “”,stringsAsFactors ,colClasses = NA)File是带分隔符的ASCII文本文件,sep用来指定分割数据的分隔符,stringsAsFactors可以设置字符变量与因子之间的转换。colClasses为每一列指定一个类,也可以设置字符型变量转载 2016-05-05 10:57:50 · 36612 阅读 · 1 评论 -
reshape2揉数据
1. melt() 融合函数,每个测量变量独占一行 ——宽格式数据变成长格式数据语法结构:melt(data,id.vars,measure.vars,varnames,value.name…) 其中data可以是数据框,数组或列表;1.数据类型为data.frame length(airqualityday)[1]153length(aqmday)[1] 153 length(aq原创 2016-05-04 20:52:56 · 854 阅读 · 0 评论 -
SAS基础数据管理
数据集的复制、 变量和特点条件的记录IF数据集的拆分 Select 语句实现分类 output可以把分类结果输出数据集的合并 纵向合并 set 横向合并 merge by (首先对记录进行排序sort)修改数据集 先建立一个更新内容的数据集,然后再update 待修改的数据集 改动的内容 by 变量 (同样在更新之前要先对原数据集排序)PROC SQL合并数据集 分两种情原创 2016-03-24 21:06:34 · 1517 阅读 · 0 评论 -
采样技术
关于采样技术,目前主要有两大类抽样技术,即等概率抽样和非等概率抽样,在实际应用中,等概率是最常见的。 1.简单随机抽样 所谓简单随机抽样(SRS),是指所抽取的每个个体与总体的分布相同,如抽奖,这是一种最公平且概念上最简单的抽样法,可以直接套用统计学原理去进行估算与推论.在R中可以使用自带的sample()函数实现。 语法以及参数意义: sample(x,size,replace=原创 2016-03-13 15:18:56 · 2153 阅读 · 0 评论 -
缺失值,表整理—tidyr包
tidyr包主要涉及: 1)缺失值的简单补齐 2)长形表变宽形表与宽形表变长形表 3)列分割与列合并1.缺失值的简单补齐 library(tidyr) library(dplyr)# 创建含有缺失值的数据框示例x <- c(1,2,7,8,NA,10,22,NA,15)y <- c("a",NA,"b",NA,"b","a","a","b","a")df <- data.frame(原创 2016-03-10 10:08:12 · 2419 阅读 · 0 评论 -
重塑与整合数据集—reshape包
重塑数据时,通过修改数据的结构(行和列)来决定数据的组织方式。 整合数据时,往往将多组观测替换为这些观测计算的描述性统计量。 整合函数的语法: aggregate(x,by,fun) x是待折叠的数据的对象,by是一个变量名组成的列表,这些变量将被去掉以形成新的观测;fun是用来计算描述性统计量的标量函数,它将被用来计算新观测中的值。 # 根据气缸数和档位数整合mtcars数据,并返回各原创 2016-03-10 10:06:06 · 1358 阅读 · 0 评论 -
数据处理包plyr和dplyr包的整理
常见的数据处理包 dplyr——package1.数据对象:tbl对象 使用dplyr包预处理时建议使用tbl_df()或tbl_cube()或tbl_sql()函数将原数据转换为tbl对象2.观测筛选 将指定条件的观测筛选出来:filter()函数 filter(.data,…) .data为tbl对象 …为观测筛选条件,类似于subset()函数,但不同的是filter(原创 2016-03-01 08:07:16 · 7605 阅读 · 0 评论 -
回归分析中的多重共线性问题
最近做回归分析,出现了相关系数与回归方程系数符号相反的问题,经过研究,确认是多重共线性问题并探索了解决方法。在此将多重共线性的相关知识整理如下。解释变量理论上的高度相关与观测值高度相关没有必然关系,有可能两个解释变量理论上高度相关,但观测值未必高度相关,反之亦然。所以多重共线性本质上是数据问题。造成多重共线性的原因有一下几种:1、解释变量都享有共同的时间趋势;2、一个解释变量是另一个的滞后,二者往往转载 2016-12-10 10:52:22 · 20814 阅读 · 0 评论