
R
光于前裕于后
本人有多年大数据与机器学习开发经验,并乐于总结与分享,如有侵权或写的不对的地方可以私信我,有问题也可以问我哟,free~
展开
-
SparkR初体验
突然有个想法,R只能处理百万级别的数据,如果R能运行在spark上多好!搜了下发现13年SparkR这个项目就启动了,感谢美帝!1.你肯定得先装个spark吧。看这:Spark本地模式与Spark Standalone伪分布模式2.你肯定得会R吧。看这:R语言入门3.启动SparkR就可以了guo@drguo:/opt/spark-1.6.1-bin-hadoop2.6$ ./bin/sparkR #这样直接运行应该是默认在本地运行,要在集群上运行应该和spark-shell一样,后面加点参数 --原创 2016-05-11 20:41:19 · 20942 阅读 · 7 评论 -
用R语言对高维数据进行降维聚类展示
【为什么要降维】 *维数灾难:在给定精度下,准确地对某些变量的函数进行估计,所需样本量会随着样本维数的增加而呈指数形式增长。 *降维的意义:克服维数灾难,获取本质特征,节省存储空间,去除无用噪声,实现数据可视化 强烈推荐几篇博客: https://www.douban.com/note/469279998/ http://bindog.github.io/blog/2016/06/04/f原创 2016-10-26 12:22:29 · 12394 阅读 · 3 评论 -
用R进行一元线性回归分析建模
概念:一元线性回归预测是指成对的两个变量数据的散点图呈现出直线趋势时,采用最小二乘法,找到两者之间的经验公式,即一元线性回归预测模型。根据自变量的变化,来估计因变量变化的预测方法。我用的是R内置数据集mtcars,要预测的是当每加仑汽油能跑23英里(mpg=23)的车有多重(wt?)。下面贴一下代码,代码较简单,但重要的是这个流程!1.attach(mtcars);pl原创 2016-05-31 15:59:34 · 12118 阅读 · 0 评论 -
基于密度的聚类----DBSCAN算法使用(R语言)
扫描半径 (eps)和最小包含点数(minPts)library(cluster)#做聚类的包library(fpc)#有dbscancity <- read.csv("中国城市坐标.csv")x <- city[,c(3,2)]#行,列#ds <- dbscan(x, 2)#2是半径,最小点数默认为5ds <- dbscan(x, 2,6)#ds <- dbscan(x,1,3)原创 2016-04-06 16:37:50 · 11441 阅读 · 0 评论 -
基于层次的聚类----AGNES算法使用(R语言)
凝聚# 产生数据集x<-c(rnorm(200,30,1),rnorm(200,10,1.5),rnorm(100,5,0.5))y<-c(rnorm(200,30,1),rnorm(200,10,1.5),rnorm(100,5,0.5))data<-data.frame(x,y)# 彩色空间library(colorspace)# 显示数据集的结构str(data)# 系统原创 2016-04-06 11:09:36 · 5156 阅读 · 0 评论 -
基于划分的聚类----K-means算法使用(R语言)
library(amap)#这个包里有kmeans函数library(R2SWF)library(animation)#导入包,后两个是作动画的包customer <- read.csv("customer.csv")#读取文件,赋给customerage_inc <- customer[,c(3,6)]#获取customer的第三列和第六列(如果是3:6就是三到六列)赋给age_inc原创 2016-04-05 20:04:00 · 7319 阅读 · 0 评论 -
Error in library.dynam(lib, package, package.lib) : shared object ‘plyr.so’ not found
在ubuntu 下载R的reshape包的时候报了以下的错:Error in library.dynam(lib, package, package.lib) : shared object ‘plyr.so’ not foundERROR: lazy loading failed for package ‘reshape’* removing ‘/opt/spark-1.6原创 2016-05-13 19:19:17 · 7086 阅读 · 0 评论 -
用R进行多元线性回归分析建模
概念:多元回归分析预测法,是指通过对两个或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。原创 2016-05-31 22:20:37 · 52772 阅读 · 2 评论