
R语言
小白15138
这个作者很懒,什么都没留下…
展开
-
R语言实操
本次实操主要是用来对数据的处理,筛选,模糊查询以及批量读取文件夹中的文件名称#批量读取文件架中的地址#地址变量#代码保存的地址path <- 'C:/Users/zhangxudong/Desktop/其他/合并txt数据'#数据源地址ypath <- 'C:/Users/zhangxudong/Desktop/其他/合并txt数据/数据源'#结果数据保存地址jpath <- 'C:/Users/zhangxudong/Desktop/其他/合并txt数据/结果'ge原创 2022-01-26 15:23:04 · 982 阅读 · 0 评论 -
R语言文件读取
R语言文件读取原创 2022-01-24 10:50:03 · 490 阅读 · 0 评论 -
R语言dplyr包:高效数据处理函数(filter、group_by、mutate、summarise)
R语言dplyr包:高效数据处理函数(filter、group_by、mutate、summarise)转载 2020-09-02 20:25:26 · 1949 阅读 · 0 评论 -
ggplot画图的一些好的文章
如何画条形图## 如何画条形图原创 2020-08-03 16:58:48 · 216 阅读 · 0 评论 -
数据分析各种算法的总结;
常用机器学习算法比较聚类算法总结聚类的定义:聚类也称为聚类分析,指将样本分到不同的组中使得同一组中的样本差异尽可能的小,而不同组中的差异尽可能的大。聚类得到的不同的组称为簇,发现对象簇,使得同一个簇内的对象尽量相似,不同簇间的对象尽量不同。聚类和分类的区别无监督学习与分类不同,没有事先定义的类别标记。分类是一种监督学习,聚类是一种无监督学习,二者最主要的区别是聚类的样本没有类标号,而...原创 2020-04-15 00:36:24 · 3608 阅读 · 0 评论 -
机器学习案例-信用卡诈骗识别。
数据简介本次数据为欧洲的信用卡的持卡人在2013年9月某两天的交易数据,由于涉及到数据的敏感性问题其中V1~V28的变量都是进行了主成分分析后合成的脱敏的数据。变量名称介绍数据预处理导入数据及数据初步展示data <- read.csv("creditcard.csv")head(data)#导入数据还可以使用reader包中的read_csv()函数,它可以显示导入数据的...原创 2020-07-08 09:19:20 · 2022 阅读 · 1 评论 -
caret包介绍学习之train函数介绍
caret包在机器学习会经常用到,它可以进行:数据预处理,特征选择,建模与参数优化,模型预测与检验。关于caret包在这些方面的应用可以参看文章:R语言之-caret包应用R语言caret包的学习(四)–建立模型及验证本次介绍的是caret包在模型与参数优化上面的应用,主要函数为train函数caret包中提供了很多种工具进行自动调整参数,train()函数作为接口,可以选择评估方法和度量...原创 2020-04-06 01:17:43 · 20671 阅读 · 4 评论 -
R----dplyr包介绍学习
转载R----dplyr包介绍学习转载 2020-04-02 23:09:41 · 151 阅读 · 0 评论 -
Rstudio,几个提高编程的小技巧
众所周知,月初的时候RStudio发布了1.0版本,引起了广大用户的关注与感慨,其中的多项重大亮点,大家都已经了解甚至试用了。除了notebook这种大尺度的逆天功能,RStudio作为一个IDE,还拥有众多或许不为太多人知的小细节。但正是这一系列小心思,默默提升了广大分析师们的工作效率。本文就是跟大家介绍其中的几个小技巧。全文内容照例由谷歌翻译,豹哥不负责审核。1.可分离的窗格用户可以将...转载 2020-04-02 22:58:29 · 1978 阅读 · 0 评论 -
机器学习面试要点总结
机器学习面试要点总结转载 2020-03-28 17:44:51 · 159 阅读 · 0 评论 -
中心极限定理
注:本文转自[中心极限定理通俗介绍]一,什么是中心极限定理中心极限定理是统计学中比较重要的一个定理。本文将通过模拟数据的形式,形象地展示中心极限定理是什么,是如何发挥作用的。中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取n个抽样,一次抽m次。然后把这m组抽检分别求出均值。这些均值的分布接近正态分布我们举个栗子现在我们要统计全国的人的体重,看看我国平均体重是多少。当然...原创 2020-01-27 14:36:16 · 2198 阅读 · 0 评论 -
R语言最优分箱包smbinning
R语言最优分箱包smbinning在风控中评分卡模型中需要对数值型连续变量进行分箱处理,这个过程又被称为数据离散化。smbinning包是采用最优分箱的方法进行数值型变量的离散化处理的,即条件推断决策树(Conditional Inference Tree)。该算法开始排除缺失值进行分割点的寻找,最后计算IV值时,会考虑缺失值。如果没有安装smbinning,请先安装 install.p...转载 2020-01-21 16:58:17 · 2212 阅读 · 0 评论 -
ROC曲线
ROC曲线,通俗来说,我们建立一个分类模型,但是这个分类模型不是直接告诉你这个属于类P那个属于类N,它会告诉你通过它的特征这个属于类P的概率是多少,这种情况下我们就要找一个阈值,通过这个阈值来判断是属于类P还是属于类N,比如我们可以说当超过阈值是属于类P否则属于类P。说了那么多我们来看个例子更容易理解这里有一个数据,第一列数据是序号列,第二列数据为数据真实的类别列,第三列数据为分数列(这个是分...原创 2020-01-19 14:43:04 · 942 阅读 · 0 评论 -
方差分析--R语言
做回归分析时当自变量为类别变量时,我们关注的重点会从预测转向组别差异分析,这种分析法称作方差分析。9.1 术语速成组间因子是指每个受测者只接受一个类型的测试,不会接受多种类型的测试,例如每位患者都仅被分配到一个组别中,没有患者同时接受两种治疗方法。组内因子与组间因子正好相反。比如比较不同时间患者的治疗情况,则时间因子就是组内因子,因为每一位患者都会经历不这两种时间。均衡设计,不同组间的观测...原创 2020-01-07 06:09:19 · 2227 阅读 · 0 评论 -
线性回归模型(最小二乘法模型)诊断--R语言
回归诊断回归诊断技术向你提供了评价回归模型适用性的必要工具8.3.1标准方法对lm()函数返回的对象使用plot()函数,生成评价模型拟合情况的四幅图形例子fit <- lm(weight~height,data=women)par(mfrow=c(2,2))plot(fit)左上图为“残差图与拟合图”,它可以验证统计假设中的线性假设,若因变量与自变量线性相关,那么残差值...原创 2019-08-29 08:56:04 · 10882 阅读 · 0 评论 -
R语言--回归分析(最小二乘法)--模型改进措施
有四种方法可以处理违背回归假设的问题1,删除观测点2,变量变换3,添加或删除变量4,使用其他回归方法8.5.1 删除观测点删除离群点通常可以提高数据集对于正态假设的拟合度,而强影响点会干扰结果,通常也会被删除。删除最大的离群点或者强影响点后,模型需要重新拟合。若离群点或强影响点仍然存在,重复以上过程如果是因为数据记录错误,或没有遵守规程,或是受式对象误解指导说明这种数据本身是错误的...原创 2019-08-30 08:11:31 · 7839 阅读 · 0 评论 -
R语言中函数lines和abline的区别
函数lines()其作用是在已有图上加线,命令为lines(x,y),其功能相当于plot(x,y,type=“1”)函数abline()可以在图上加直线,其使用方法有四种格式。(1)abline(a,b)表示画一条y=a+bx的直线(2)abline(h=y)表示画出一条过所有点得水平直线(3)abline(v=x)表示画出一条过所有点的竖直直线(4)abline(lm.obj)...原创 2019-08-02 09:33:32 · 11367 阅读 · 1 评论 -
R语言创建新的变量的三种方式
#创建新变量> #公式> 变量名 <- 表达式Error: object '表达式' not found> #算术运算符x%%y 求余,x%/%y 整数除法。> #创建新变量的例子> mydata <- data.frame(x1=c(2,2,6,4),x2=c(3,4,2,8))> #第一种> mydata$sumx <...原创 2019-06-26 23:09:45 · 16993 阅读 · 1 评论 -
R语言中级图形:相关系数图及马赛克图
利用corrgram包中的corrgram()函数,可以用图形的方式展示相关系数矩阵代码示例options(digits=2)cor(mtcars)install.packages("corrgram")library(corrgram)corrgram(mtcars,order=TRUE,lower.panel = panel.shade, upper.panel ...原创 2019-08-29 08:17:49 · 12288 阅读 · 1 评论 -
R语言中级绘图:折线图
折线图数据使用基础安装中的Orange数据集为例,它包含五中橘树的树龄和年轮数据 head(Orange)Grouped Data: circumference ~ age | Tree Tree age circumference1 1 118 302 1 484 583 1 664 87...原创 2019-08-29 08:04:20 · 5338 阅读 · 0 评论 -
R语言,直方图的制作--hist()
直方图直方图通过在x轴上将值域分割为一定数量的组,在Y轴上显示相应的频数,展示了连续型变量的分布。其函数及格式为hist(x)参数x为连续型变零,hist()只有x这个连续型变量是必须输入的参数freq=FALSE表示根据概率密度而不是频数绘制的图形(y轴显示的是概率密度值而不是频数)参数breaks用于控制组的数量。在定义直方图中的单元时,默认将生成等距的切分例子1,简单的直方图h...原创 2019-07-16 10:20:37 · 27983 阅读 · 0 评论 -
R语言饼图的制作
饼图饼图比较好看,但是它数据的呈现型不如条形图,所以多数的统计学家都不推荐饼图饼图可以通过pie()函数创建其格式为pie(x,labels)x是一个非负的数值向量labels是x的标签例子1简单的饼图slices <- c(10,12.4,16,8)lbls <- c("US","UK","Australia","Germany","France")pie(slic...原创 2019-07-16 07:30:34 · 3417 阅读 · 0 评论 -
R语言条形图的制作--barplot()
函数barplot()可以绘制条形图,其格式为barplot(height)height是一个向量或者矩阵,使用horiz=TRUE可以生成一个水平的条形图,例子1,绘制简单的条形图注意一般条形图都是统计分类变量每一钟元素的频数,此时需要运用table()进行处理table()函数可以统计列各种元素出现的次数counts <- table(Arthritis$Improved...原创 2019-07-16 06:55:02 · 20717 阅读 · 0 评论 -
R语言,添加为数据框添加新的列
添加变量的三种方式首先创建一个数据框> a <- c(1,3,5)> b <- c(2,4,6)> frame <- date.frame(a,b)> frame a b1 1 22 3 43 5 6新增变量方法一,通过赋值的方式进行新增变量frame$sum <- frame$a + frame$b新增变量方法二,首...原创 2019-07-04 16:06:23 · 150946 阅读 · 6 评论 -
处理缺失值
> #创建leadership数据框> manager <- c(1:5)> data <- c("10/24/08","10/28/08","10/1/08","10/12/08","5/1/9")> country <- c("US","US","UK","UK","UK")> gender <- c("M","F","F",'M'...原创 2019-06-28 08:59:35 · 257 阅读 · 0 评论 -
R语言作图初阶
#初步使用R语言进行作图#绑定数据框mtcars这样之后作图就可以直接使用mtcars中的数据了attach(mtcars)#打开一个图形窗口并生成一副散点图,横轴表示车身重量,纵轴表示每加仑行驶的英里数plot(wt,mpg)#向图形中添加一条最优拟合曲线abline(lm(mpg~wt))#添加标题title("Regression of MPG on Weight")#解除...原创 2019-06-27 21:54:20 · 495 阅读 · 0 评论 -
R语言数据集的基本操作(合并,添加行列,提取子集等)
#数据集的基本操作(合并,添加行列,提取子集等)#数据集的横向合并#1,使用merge()函数合并数据集merge(x,y,by,...)#数据集通过一个或多个共有变量进行联结#例子,将data.frameA和data.frameB按照ID进行合并total <- merge(data.frameA,data.frameB, by="ID")#如果两个数据的共有变量名称不一样时...原创 2019-07-08 08:49:15 · 46812 阅读 · 2 评论 -
R语言的重编码
#变量的重编码> #在分析数据时我们经常会遇到将变量值转换成其他的值的情况(如:将连续变量转成分类变量)这时> #时我们就需要我们对原有数据进行重新编码。本文将介绍R软件中常用的三种编码方法> #1,使用逻辑判断式编码> #2,使用cut函数编码> #3,使用car程序包的recode函数> #(1)使用逻辑判断式> #(1)现假设我们需要将...转载 2019-07-02 08:51:01 · 3823 阅读 · 0 评论 -
R语言数据排序
#数据排序#在R中,可以使用Order()函数对一个数据框进行排序。默认的排序顺序是升序。#在排序变量的前面加一个减号即可得到降序的排序结果#例子#order()函数返回的是被排序的列从小到大的依次的位置order(leadership$age)newdata <- leadership[order(leadership$age),]newdata#降序newdata &l...原创 2019-07-08 07:05:31 · 29273 阅读 · 5 评论 -
R语言类型转换
#类型转换 #R中提供了一系列用来判断某个对象的数据类型和将其转换为另一种数据类型的函数 #判断数据类型函数 is.numeric()is.character()is.vector()is.data.frame()is.matrix()is.factor()is.logical()#转换数据类型as.numeric()as.character()as.vector()...原创 2019-07-08 06:47:32 · 2142 阅读 · 0 评论 -
R语言日期及时间
#日期和时间#R语言的基础包中提供了三种基本类型用于处理日期和时间,Date用于处理日期,它不包括时间和时区信息;、#POSIXct/;PSIXlt用于处理日期和时间,其中包括日期,时间,时区信息。R内部在存储日期和时间时,使用不同的方式;#Date类:存储了从1970年1月1日以来来时计算的天数,更早的日期表示为负数,也就是说,Date类型是一个整数#以天为单位计算日期,因此Date适...原创 2019-07-08 06:35:50 · 15141 阅读 · 0 评论 -
R的可视化以及ggplot2
ggplot2的优点ggplot2可以让作图者根据ggplot2的作图语法来控制一下作图中的重要的因素,用起来可以说神通广大ggplot2的主要元素:1.data:数据2,Aesthetic mapping:颜色、形状、点的大小与线的粗细3,Statistical transformations:将数据做统计转换,比如概率密度,计数等等4,Coordinate system:坐标轴的调...原创 2019-06-19 16:41:39 · 280 阅读 · 0 评论 -
R数据输入/输出以及dplyr的使用
一数据的输入输出1,清空环境中的对象:rm(list=ls())2,读取文件需要安装三个包分别是,foreign,readstata13,readxl3,读取不同格式的文件:read.dta13(“表名.dta”),read.csv(“表名.csv”),read_excel(“表名.xlsx”,sheet=“工作表名”)4,查看表的变量名称:names(表名)5,查看表中各个向量的内容,...原创 2019-06-13 21:56:29 · 870 阅读 · 0 评论 -
R语言数学函数及统计函数及概率函数
一,数学函数数学函数大多应用在标量上(单独的数值)这些函数应用在数值向量,矩阵,数据框时,它们会作用于每个独立的值常用的数学函数函数 描述abs(x) 绝对值sqrt(x) 平方根ceiling(x) 不小于x的最小整数(向上取整)...原创 2019-07-12 06:58:52 · 6347 阅读 · 0 评论 -
R语言 字符函数及其他实用函数
一,字符处理函数函数 描述nchar(x)计算x中的字符数量substr(x,start,stop)提取或替换一个字符向量中的子串x <- “abcdef”substr(x,2,4) 返回值为"bcd"substr(x,2,4) <- “22222” (x将变成"a22222ef")函数grep()grep(pa...原创 2019-07-12 07:07:25 · 685 阅读 · 0 评论 -
R语言中级绘图:三维散点图
本章,我们主要关注用于展示双变量间关系和多变量间关系的绘图方法三维散点图使用函数scatterplot3d()绘制三维散点图示例install.packages("scatterplot3d")library(scatterplot3d)attach(mtcars)scatterplot3d(wt,disp,mpg,main="Basic 3D Scatter Plot")sc...原创 2019-08-29 07:53:08 · 14874 阅读 · 2 评论 -
R语言中级绘图--高密度图
本章,我们主要关注用于展示双变量间关系和多变量间关系的绘图方法当数据点重叠很严重时,用散点图来观察变量关系就显得“力不从心”,这时就需要使用高密度图来显示双变量之间关系。示例#设置数据set.seed(1234)n <- 10000c1 <- matrix(rnorm(n,mean = 0,sd=0.5),ncol=2)c2 <- matrix(rnorm(n,me...原创 2019-08-29 07:30:03 · 2302 阅读 · 0 评论 -
中级绘图--散点图
本章,我们主要关注用于展示双变量间关系和多变量间关系的绘图方法11.1散点图散点图可以用来描述两个连续型变量间的关系。R中创建散点图的基础函数是plot(x,y),其中,x和y是数值型向量,代表着图形中的(x,y)点代码示例attach(mtcars)plot(wt,mpg, main="Basic Scatter plot of MPG vs. Weight", ...原创 2019-08-29 07:12:08 · 757 阅读 · 0 评论 -
回归分析--R语言
用lm()拟合归回模型回归分析作为一个统计学的核心,它其实是一个广义的概念,通指那些用一个或多个预测变量来(也称自变量或解释变量)来预测响应变量(也称因变量,校标变量或结果变量)通常回归分析可以用来挑选与响应变量相关的解释变量,可以描述两者的关系,也可以生成一个等式,通过解释变量来预测响应变量。回归分析的各种变体1,简单线性–用一个量化的解释变量预测一个量化的响应变量(一元一次)2,多项...原创 2019-08-20 08:32:14 · 2216 阅读 · 0 评论 -
R语言---相关系数
相关系数可以用来描述定量变量之间的关系相关系数的符号表明关系的方向,其值的大小表示关系的强弱程度一般认为0.3一下的为弱相关,0.3-0.7之间的为中相关,0.7以上的为强相关下面描述的关系都是线性相关,如果结果返回为不相关仅仅表示没有线性相关性相关的类型R语言可以计算多种相关系数,包括Peason相关系数,Spearman相关系数,kendall相关系数,偏相关系数,多分格相关系数和多...原创 2019-08-14 17:08:49 · 29608 阅读 · 0 评论