
R
J_sir2015
好好努力,爱惜自己
展开
-
主成分分析基于R
一、实验目的:熟悉主成分析的思想,掌握求主成分的方法以及R语言代码 二、实验内容:对于从不同的数据出发,掌握三种求主成分的方法,以及相应的R语言代码。同时要求对命令输出结果进行理解,解释。 三、实验设备与平台:R语言 四、涉及的知识点:数据标准化,矩阵的特征值,特征向量,协方差矩阵,变量的相关系数矩阵,主成分分析思想,求解主成分的方法。 五、实验过程:从协方差矩阵出发,求主成分。 Comp.s...原创 2018-05-27 22:49:20 · 1451 阅读 · 0 评论 -
R设置哑变量
对于分类数据,即定性数据在建模的时候常常需要转换为哑变量,R提供了非常好用的函数;dummyvars();matxir.model();原创 2018-08-08 08:49:51 · 3851 阅读 · 0 评论 -
稀疏变量的处理
经常,对于高维的数据集,降维的第一步,就是删除那些包含相同信息的变量,就是变量取值很多相同的或者改变了的方差很小。想删除第一步,就是,先问为什么?当然是模型不接受你这种的变量,好比如回归分析,把很多值相同的变量作为自变量,对于模型的拟合效果有影响。那么,要删,当然先找到哪些属于稀疏变量。nearZeroVar为caret包中函数的两个参数就是理论。1.uniqueCut:是不同...原创 2018-08-08 14:35:14 · 2130 阅读 · 1 评论 -
Rstudio 工作流:项目
做项目对于代码,输出的保存非常重要,有利于你回头看,会发现什么问题,或者你忘了怎么得到结果,这些都可以通过建立项目。而具体是什么呢,有什么用呢。直接看看例子:Rstudio项目1.点击file-new project2.点击New Directory3.选择New project4.输入项目名字:data annalysis文件保存路径:D盘数据分析点击c...原创 2018-08-19 13:37:56 · 2360 阅读 · 0 评论 -
机器学习的概念
学数据分析的,机器学习常挂在嘴边。机器学习是什么?模型?不是,不是。看完李航大师的统计学习方法,机器学习可能就是:模型、决策、算法。举例子:模型:线性回归决策:怎么选择最优的模型,即评估模型的好坏,这时候要用到损失函数,即真实值与训练结果的误差尽可能小。平方损失函数算法:就是,求解未知数的方法。求偏导。认真想一下,任何的模型,度离不开上述所讲。 ...原创 2018-08-22 10:13:35 · 293 阅读 · 0 评论 -
数据集合并
连接的含义:表与表之间的关系,吃个栗子:学生信息表A包含:性别、年龄、身份证号码,学生兴趣爱好表B包含:身份证号码、兴趣爱好。如果你想了解不同兴趣爱好的学生的姓名以及性别情况,单纯靠一张兴趣爱好表是没有办法回答的,得结合学生信息表,就要找他们之间的关系。可以通过身份证号码将两个表连接起来。身份证号码就是A的主键,也是B的外键,因为它能唯一识别一个学生。连接类型内连接 外连接左连接...原创 2018-09-04 22:13:35 · 842 阅读 · 0 评论 -
数据分析案例
数据分析报告撰写 ———手机APP数据背景介绍2015年1月5日,人民银行批准八家机构进行数据的收集。此后,中国个人征信行业进入高速发展期,征信人口覆盖率达50%,每人每年查询个人征信报告的次数为5,查询服务单价为25元,从而,征信市场未来规模约855亿元。什么是征信?简单而言,市民小强买新出的BMW,问题钱不够,便找银行贷款。银...原创 2018-09-12 22:22:18 · 9343 阅读 · 1 评论 -
数据思维笔记
数据思维笔记数据介绍:通过数据说明表进行表述,表格格式如下:表1-1 变量类型 变量名 详细说明 取值范围 备注 因变量 综合成绩 自变量 ...原创 2018-09-07 09:50:39 · 781 阅读 · 0 评论 -
R语言的缺失值处理(2)
用预测来填补。DMwR包 knnlmputation(),利用knn进行填补,数据集要求剔除因变量,即响应变量。但是 knnlmputation(),对于因子变量的取值,其效果不是很好。这是可以考虑用回归树repart函数里边的参数说明,当取值为数值型method用anova,当为因子型用class。----------------------------------填补缺失值...原创 2018-08-06 11:48:25 · 1091 阅读 · 0 评论 -
R语言的缺失值处理(1)
一定要先了解缺失机制,即为什么会产生缺失值。对于随机产生的缺失值,可以删除,删除的对象分为两类,变量的删除,以及观测值的删除。当某一变量的缺失值比例很高的时候,可以直接删除,也可以用哑变量进行标志。但缺失值的产生不是随机的,要根据它产生原因用不同的方法填补;主要介绍三个包的常用于填补缺失值的函数。思路一般是要定位缺失值以及查看缺失值的数量:is.na()sum(is.na(...原创 2018-08-06 11:43:31 · 6409 阅读 · 0 评论 -
主成分分析利器之princomp函数
通过princomp函数求主成分 由上述输出结果,可得:m=3时,累计贡献率为86.66%大于80%,即可认为m取3是合理的。Loadings结果可得,前三个主成分为:Z.1=0.48x1+0.475x2+0.429x3-0.207x4-0.385x5-0.348x6+0.211x7Z.2=-0.29x1-0.274x2-0.372x3-0454x4-0.336x5-0.407x6+0.379x...原创 2018-05-27 22:51:15 · 5279 阅读 · 0 评论 -
主成分分析应用之聚类
数据的读取,通过嵌套的for循环把R矩阵填满,即得到一个对称矩阵。 princomp函数covmat参数的含义,通过R语言的帮助文档可知。 当输入矩阵为协方差矩阵,可以通过此参数的输入,从而使princomp函数能求出其主成分。 Loadings(pr),为主成分分析输出结果中的负荷因子矩阵 从summmary(pr),结果可知,当主成分个数m=3时,累计贡献率为70.52%,大于70%。即...原创 2018-05-27 22:57:53 · 14234 阅读 · 5 评论 -
主成分分析应用之主成分回归
主成分回归分析 对于OXY数据集的变量解释如下: 对上述数据进行回归模型的拟合,得到模型:从模型的显著性检验结果看出:除了常数项以及β3显著,其他变量系数都不通过显著性检验。同时,从模型整体拟合效果来看,R^2为0.8618,调整的R^2为0.7697,整体拟合效果可以通过。最后,p值为0.00198说明,拒绝原假设,即有理由认为回归模型从整体上拟合效果比较好。下面针对系数通不过检验进行分析。 #...原创 2018-05-27 23:16:42 · 38481 阅读 · 12 评论 -
一元线性回归
#rm(list = ls())利用R内置数据集women,简单阐述一元回归分析的基本思路#数据womenhead(women) height weight1 58 1152 59 1173 60 1204 61 1235 62 1266 63 129#散点图plot(women$height,women$wei...原创 2018-05-27 23:31:35 · 1197 阅读 · 0 评论 -
R语言输入输出
R语言输入输出 主要的内容就是输出的语句以及读取文件的具体操作文本 我们常见的对象有三种:数值型,逻辑型,字符型数值型:1,134逻辑型:f t一般在运算符中 t为1 f为0字符型:charach,dfnjson等一般引用的时候要用双引号。现在介绍一下对于一般类型之间的转化。例如:一个数️字符串:as.numeric字符串️数:as.character更多的有对于数据类型之间的转化例如vector...原创 2018-06-05 22:22:50 · 2608 阅读 · 0 评论 -
数据的预处理之量纲消除
如果对于不明白原理的同学,可以查看memory的博客memory的博客http://blog.sina.com.cn/u/1974002713#数据的预处理之量纲消除rm(list = ls())#第一min-max标准化data<-matrix(c(4,7,6,8,9,9,4,3,5),nrow = 3)stddata <- data.frame()for(i in 1:dim(da...原创 2018-06-05 22:29:33 · 8981 阅读 · 0 评论 -
R语言排序算法代码
##bubblerm(list = ls())#vec<-c(2,5,3,9,6,1,7) vec<-c(6,2,4,1,5,9)bubblesort = function(vec){ n = length(vec) for(i in 1:(n-1)) { for(j in (i+1):n){ if(vec[i]>=vec[j]){ temp&l...原创 2018-06-05 22:31:34 · 2577 阅读 · 0 评论 -
嵌套型list转换为data.frame的方法
这一个方法是可以的:https://blog.youkuaiyun.com/h8178/article/details/78626246杜雨的方法,后面补上转载 2018-08-09 14:24:43 · 2984 阅读 · 0 评论 -
因子处理
主要应用:对于水平值的修改,整理library(forcats)library(tibble)library(dplyr)library(magrittr)library(ggplot2)x1 <- c("Jan","Apr","Mar","Dec")x2 <- c("Dec","Apr","Jam","原创 2018-09-14 23:23:01 · 433 阅读 · 0 评论