
R语言整理(极简版)
梳理R语言基础
孔胖
不积跬步,无以至千里
展开
-
R语言28-Prosper 贷款数据分析4
多变量分析(终图)最后探究贷款利率与信用评分和评级之间的关系:data$CreditGrade <- factor(data$CreditGrade,order=TRUE, levels = c("AA","A","B","C","D","E","HR"))data$ProsperRating..Alpha. <- facto...原创 2020-02-10 12:46:43 · 864 阅读 · 0 评论 -
R语言27-Prosper 贷款数据分析3
双变量分析接着对问题贷款的影响因素进行分析,拟推断出易出现问题贷款的人群特征。与此同时探讨借款利率的影响因素:平台用户信用情况(等级/评分)与贷款状态:ggplot(aes(x=newLoanStatus,y=creditscore),data = subset(data,!is.na(data$newLoanStatus)))+ geom_boxplot()+coord_carte...原创 2020-02-10 12:40:03 · 772 阅读 · 0 评论 -
R语言26-Prosper 贷款数据分析2
单变量分析首先对平台客户的基本信息进行分析,包含所在地,信用状况,申请贷款原因等,旨在分析目标客户所倾向具备的一般特征:所在地区分布:library(ggplot2)ggplot(data=subset(data,!data$BorrowerState==""), aes(x=BorrowerState))+geom_bar(fill="pink",color="blac...原创 2020-02-10 12:30:01 · 759 阅读 · 0 评论 -
R语言25-Prosper 贷款数据分析1
Prosper 贷款数据分析数据导入工作目录设置首先查看当前工作路径,对其进行对应更改getwd()setwd('C:/Users/blabla/Desktop/数据分析/R语言')getwd()list.dirs() #罗列目录下所有文件夹list.files() #罗列目录下所有文件导入数据pf <- read.csv('C:/Users/孔啊吱/D...原创 2020-02-10 11:53:58 · 1509 阅读 · 1 评论 -
R语言24-并列绘图gridextra
可以用于一张图里面画好几张图使用gridextralibrary(gridExtra)data$IncomeRange <- factor(data$IncomeRange,order=TRUE,levels = c("Not displayed","Not employed","$0","$1-24,999","$25,000-49,999","$50,000-74,999","$...原创 2020-02-10 11:43:06 · 3697 阅读 · 2 评论 -
R语言23-随机抽取样本绘图
可以用来查看部分数据set.seed(4230) #设置种子数,大家取随机数一样sample.ids <- sample(levels(yo$id),24) #随机取IDggplot(aes(x=time,y=price),data = subset(yo,id %in% sample.ids))+ facet_wrap(~ id)+ geom_line()...原创 2020-02-10 11:34:33 · 1362 阅读 · 0 评论 -
R语言22-绘制百分比图
主要有两种方法:1.ggplot,包裹器里添加fill2.使用ggbarstats,会显示占比library(ggplot2) #加载ggplot2包library(dplyr) #加载dplyr包library(ggstatsplot) #加载ggstatsplot包diamonds2 <- filter(diamonds, color %in% c('J', 'H')) #...原创 2020-02-10 11:12:52 · 6004 阅读 · 0 评论 -
R语言21-多变量绘图
在原来两个变量的图里面再加一个变量 试图增加颜色,以此来表现eg1:color=gender用包裹器放在geom_line里面ggplot(aes(x=age,y=friend_count),data = subset(pf,is.na(gender)))+ geom_line(aes(color = gender),stat = 'summary',fun.y = median)...原创 2020-02-10 10:29:54 · 6006 阅读 · 0 评论 -
R语言20-变量相关性
cor.test查看变量间的相关性相关性cor.test(pf$age,pf$friend_count,method='pearson')with(pf, cor.test(age,friend_count,method = 'pearson'))求解子集的相关性with(subset(pf,age <= 70), cor.test(age,friend_count,m...原创 2020-02-10 10:18:21 · 1442 阅读 · 0 评论 -
R语言19-绘图加均值线
举例:将做的均值线叠加在散点图之上使用geom_lineggplot(aes(x=age,y=friend_count),data = pf)+ geom_point(alpha = 1/10,position = position_jitter(h=0), color="pink")+ coord_cartesian(xlim=c(13,90))+ co...原创 2020-02-10 10:13:40 · 4351 阅读 · 0 评论 -
R语言18-条件均值
下载 dplyr 包就可以对数据用这些常见函数进行筛选,分组和整理将函数连接到数据集上,将一次执行一个函数,在pf上逐个进行可以用%>%来连接函数有以下两种写法:第一种library(dplyr)age_group <- group_by(pf,age)pf.fc_by_age <- summarise(age_group, ...原创 2020-02-10 10:09:40 · 3089 阅读 · 0 评论 -
R语言17-双变量分析(散点图)
两个变量qplot(x = age, y = friend_count, data = pf) #默认散点图ggplot(aes(x = age, y = friend_count), data = pf) + geom_point()避免过度绘图:αggplot(aes(x = age, y = friend_count), data = pf) + geom_...原创 2020-02-10 10:02:07 · 5836 阅读 · 1 评论 -
R语言16-符合逻辑/自定义函数/循环/条件语句
符合逻辑 ifelsemobile_checkin <- NApf$mobile_checkin <- ifelse(pf$mobile_likes>0,1,0)pf$mobile_checkin <- factor(pf$mobile_checkin)summary(pf$mobile_checkin)自定义函数 function函数名 = ...原创 2020-02-09 20:56:09 · 857 阅读 · 0 评论 -
R语言15-箱线图
箱型图的创建:qplot:使用geom = ‘boxplot’qplot(x=gender,y=friend_count, data=subset(pf,!is.na(gender)),geom='boxplot')ggplot:geom_boxplotggplot(表名,aes(x=表中列,y=表中列))+geom_boxplot(aes(fill=表中用于分类的列))...原创 2020-02-09 19:29:56 · 1380 阅读 · 0 评论 -
R语言14-分面
用于将某一变量进行数据分割eg:将用户的生日日期数据分成1-12月份,查看每一个月的日期分布(分面前12个月汇总的日期数据)函数:facet_wrap()使用的公式中变量前有一个波浪字符;以及列数设置facet_wrap(formula)facet_wrap(~variable)与分面(facet)类似的图层是逐面网格facet_wrap(formula)facet_wrap(v...原创 2020-02-09 19:11:27 · 1187 阅读 · 0 评论 -
R语言13-坐标轴变换
有些长尾数据非常离散,甚至最终会高出一个量级因此,需要转换数据——来缩短尾巴这样才能看到标准差,使其尽可能变成正态分布/非常近似正态分布,进而使用线性递归或其他方式建模变换的方式有两种:在变量上使用包裹器qplot(x=log(friend_count),data = pf)qplot(x=sqrt(friend_count),data = pf)缺点:x轴的数值也会做相应的...原创 2020-02-09 18:44:50 · 2813 阅读 · 0 评论 -
R语言12-绘图总结
组距数据间隔填充/边框轴标签组距(bindwidth)/数据间隔组距:根据最大值,最小值确定每组组距(直方图的组宽,一个里面表示多少个x轴间隔)数据间隔:将breaks参数传给scale_x_continuous图层,包括起始点,终点和间隔(坐标轴上显示间隔)qplot(x=friend_count,data = pf,binwidth=25)+ scale_x_cont...原创 2020-02-09 18:06:01 · 968 阅读 · 0 评论 -
R语言11-缺失值处理
R语言缺失值表现为NA值处理缺失值的方式主要有两种:subset:第一个参数是数据集 第二个参数是条件data=subset(pf,!is.na(gender)使用na.omit函数:去掉所有函数na的观察(除了性别但其他列有缺失值的也会被删掉)data=na.omit(pf)...原创 2020-02-09 17:28:32 · 753 阅读 · 0 评论 -
R语言10-绘图异常值处理(限制轴)
异常数值出现有很多原因,有的异常值是极端案例的准确数据,有的则为坏数据异常数值的出现常会造成长尾数据为避免长尾数据,我们通常对坐标轴进行限制:方法一:使用xlim,进行限制library(ggplot2)qplot(x=friend_count,data = pf,xlim = c(0,1000))方法二:使用scale_x_continuous (y轴也有scale_y_co...原创 2020-02-09 17:16:12 · 2458 阅读 · 0 评论 -
R语言09-单变量绘图(频数分布直方图/折线图)
使用ggplot绘图系统运用qplot/ggplot两种方式进行单变量绘图示例:直方图qplot:系统默认柱状图library(ggplot2)qplot(x = dob_day,data=users) #传入参数x和数据集ggplot:library(ggplot2)ggplot(aes(x = dob_day),data=users)+geom_histogram...原创 2020-02-09 16:49:25 · 7729 阅读 · 0 评论 -
R语言08-常用函数总结
实用的数据对象处理函数 length(object) 显示对象中元素/成分的数量 dim(object) 显示某个对象的维度 str(object) 显示某个对象的结构 class(object) 显示某个对象的类或类型 m...原创 2020-02-09 15:04:41 · 459 阅读 · 0 评论 -
R语言07-查看数据
总结常用的查看数据方法:函数功能tail()查看表尾head()查看表头dim()查看数据维度str()给出各字段名及类型levels()查看字段给出的所有级别table()将变量制成表,观察每个组的情况summary()查看数据大致分布,给出最小值,分位数等信息names()查看数据字段名dim()dim...原创 2020-02-09 14:42:39 · 3423 阅读 · 0 评论 -
R语言06-数据切片
R语言获取数据切片(子集)的两种方法:subset()statesubset <- subset(statesinfo,state.region == 1)[ ]statesubsetbracket <- statesinfo[statesinfo$state.region == 1, ] #' '空格代表取所有的...原创 2020-02-09 14:06:01 · 5377 阅读 · 0 评论 -
R语言05-数据导入
数据导入使用键盘输入数据导入—————————————————————————使用键盘输入数据用R内置的文本编辑器和直接在代码中嵌入数据,R中的函数edit()会自动调用一个允许手动输入数据的文本编辑器。mydata <- data.frame(age=numeric(0),gender=character(0), weight=numeric(0))mydata &...原创 2020-02-09 11:54:14 · 809 阅读 · 0 评论 -
R语言04-目录查询及更改
查看当前运行目录:getwd()更改运行目录:setwd('users/blabla/downloads')无论使用什么系统,都需要使用正斜杠/来分割你的路径或者文件夹,使用“”括起来...原创 2020-02-09 11:39:33 · 270 阅读 · 0 评论 -
R语言03-因子
因子(factor)是名义型变量或有序型变量。它们在R中被特殊地存储和处理。类别(名义型)变量和有序类别(有序型)变量在R中称为因子(factor)变量:名义型、有序型或连续型变量名义型变量是没有顺序之分的类别变量。糖尿病类型Diabetes(Type1、Type2)是名义型变量的一例。有序型变量表示一种顺序关系,而非数量关系。病情Status(poor、improved、excellen...原创 2020-02-09 10:52:13 · 784 阅读 · 0 评论 -
R语言02-数据结构2
向量用于存储数值型、字符型或逻辑型数据的一维数组创建:函数c()a <- c(1, 2, 5, 3, 6, -2, 4) #数值型b <- c("one", "two", "three") #字符型c <- c(TRUE, TRUE, TRUE, FALSE, TRUE, FALSE) #逻辑型注意,单个向量中的数据必须拥有相同的类型或...原创 2020-02-09 10:34:18 · 732 阅读 · 0 评论 -
R语言01-数据结构1
R语言的数据结构:标量 向量 数组 数据框 列表(图片来自R语言实战p43)原创 2020-02-09 09:51:53 · 125 阅读 · 1 评论