
数据科学--R语言
东华果汁哥
大家好!我叫赖德发,欢迎您来到我的博客。
展开
-
【R 推荐系统】基于用户推荐协同过滤算法(UserCF)
系统在现在的互联网应用中很常见,比如,亚马逊会推荐你买书,豆瓣会给你一个书评,影评。那么如何用R语言实现推荐模型?算法步骤:1). 建立数据模型2). 欧氏距离相似度算法3). 最紧邻算法4). 推荐算法5). 运行程序我们选用一组比较简单的数据集testCF.csv1 101 51 102 31 103 2.52 101 22 102 2.52 103 52 104 ...原创 2018-11-18 12:05:15 · 2480 阅读 · 0 评论 -
【R语言 爬虫】Rwebdriver 安装方法
RSelenium和Rwebdriver个人刚接触不久,除了语法不太一样以为,都是调用的Selenium Server。一个是2012年发布的包,一个是比较新的包需要在github下载。个人推荐使用Rwebdriver,不仅因为新,跟python里的RSelenium函数很多非常相似。安装步骤library(devtools)#如果没有安装要下载安装 install_github(repo = "原创 2017-08-30 16:26:17 · 2058 阅读 · 0 评论 -
【R语言 预测数值型数据】多元回归、神经网络预测数值型目标变量
rm(list = ls())gc()######################读取数据######################data <- read.csv("C:/train.csv",sep=",",header=T)data <- data[-1]# data <- data[sample(1:nrow(data),500),]#######################试过原创 2017-09-01 17:40:10 · 9135 阅读 · 1 评论 -
【R 可视化】R语言画函数图
rm(list=ls())x=seq(-0.99,5,0.1)f=log2(sqrt(x+1))plot(x,f,type="l", lwd=2,col="red",ylim=c(-2,2),main="f=log2(sqrt(x+1)")原创 2017-09-04 09:38:39 · 20112 阅读 · 0 评论 -
【R 语言爬虫】rvest 包实战链家爬虫
rvest包简介rvest包是Hadley Wickham大神开发的一个专门用于网络数据抓取的R语言包,目前的发行版本为0.3.2,关于rvest包的描述以及用法可参考rvest帮助文档,花上一点时间阅读帮助文档,相信你就可以写出自己的爬虫了。help(package=“rvest”)rvest帮助文档: http://127.0.0.1:17483/library/rvest/html/00Ind原创 2017-08-07 09:23:51 · 6046 阅读 · 1 评论 -
【R语言 聚类比较】k-means 与dbscan
DBSCAN的算法是将所有点标记为核心点、边界点或噪声点,将任意两个距离小于eps的核心点归为同一个簇。任何与核心点足够近的边界点也放到与之相同的簇中。下面我们来使用R语言中的fpc包来对上面的例子实施密度聚类。其中eps参数设为0.6,即两个点之间距离小于0.6则归为一个簇,而阀值MinPts设为4。从上图可以看到,DBSCAN方法很好的划分了两个簇。其中要注意参数eps的设置,如果eps设置过大原创 2017-08-14 11:30:52 · 3883 阅读 · 0 评论 -
【R语言 矩阵相乘】R语言矩阵相乘100次
【D1 D2】2*1 【T1 T2】1*2我想让帮做这么一个简单的矩阵,要求D1和D2随机的变动rm(list=ls())gc()options(scipen = 2000)#################定义TT矩阵(1*2)TT <- matrix(c(1,3),1,2)DD<- matrix(c(1,2),2,1)result1 <- DD %*% TT#############原创 2017-08-16 14:40:24 · 12015 阅读 · 0 评论 -
【数据科学】总结 --数据工作的科普
一、数据获取1.爬虫:这个不用多解释了,就是从网页上爬取数据,比如爬取一个京东的三级品类的数据、爬拉勾网的职位信息数据。这个主要是网络编程,细节点主要是header、cookie、get/post请求、失败重试、验证码、重定向等,总之除了把数据从网页上抽取出来就是如何伪装自己是一个“人”在请求而不是机器自动发送的请求。至于破解验证码,简单的ocr能搞定(就是慢),自己写一个图像识别的算法也可以去尝试转载 2017-07-19 17:52:49 · 678 阅读 · 0 评论 -
【R语言 数据分析】多重共线性问题
1、什么是多重共线性? 多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。2、多重共线性对回归模型的影响@1、完全共线性下参数估计量不存在 @2、近似共线性下OLS估计量非有效 @3、参数估计量经济含义不合理 @4、变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外 @5、模型的预测功原创 2017-07-18 09:33:27 · 13979 阅读 · 2 评论 -
【R语言 社交网络】R语言关系网络图+ PageRank算法实现
例子1:library(plyr)set.seed(10)rm(list=ls())library(igraph)g<-random.graph.game(n=10,p.or.m=1/3,directed=TRUE)com = walktrap.community(g, steps = 6)V(g)$sg = com$membership + 1V(g)$color = rainbow原创 2017-06-13 10:07:56 · 10267 阅读 · 2 评论 -
【R语言 数据处理】R做数据处理中的小技巧
一、主要内容 创建新变量 修改数据 修改变量名 处理缺失值 数据排序 数据合并 数据筛选 抽样二、R语言代码rm(list=ls())gc()manager <- c(1,2,3,4,5)date <- c("10/24/08", "10/28/08", "10/1/08", "10/12/08", "5/1/09")country <- c("US", "US", "UK"原创 2017-08-31 11:35:42 · 4807 阅读 · 0 评论 -
【R语言 linux环境配置】linux下安装R语言
tar -zxvf R-3.4.1.tar.gzcd R-3.4.1yum install gcc-gfortran yum install gcc gcc-c++ yum install readline-develyum install libXt-develyum install zlib-develyum -y install bzi原创 2017-09-12 10:48:29 · 10009 阅读 · 0 评论 -
【R语言 数据处理】dplyr 包的强大之处
R语言中的有一个数据处理的强大的包,它就是 dplyr 包,dplyr包 像操作数据库一样操作 R,方便,轻松,快捷。主要内容1、选择数据表的列: select, rename2、select 只会选择你指定的列3、rename 则会改变列名, 并选择其他所有的列4、选择数据表的行: filter5、改变数据表的列: mutate, transmute6、mutate 会保留改...原创 2018-03-01 15:57:30 · 20138 阅读 · 2 评论 -
【R VS python 数据处理利器】SQL查询
1、R语言中可以使用sqldf实现SQL查询 2、python 中 可以使用 pysqldf查询R语言用sqldf查询数据#####加载sqldf包library(sqldf)###########利用sql语句查询数据,并且行转列######################df2 <- sqldf("select TIJIANBM,case when XIANGM...原创 2018-03-01 14:24:24 · 718 阅读 · 0 评论 -
【R语言 数据读取】R语言读取sav格式文件
rm(list=ls())gc()options(scipen = 200)#读取数据集# haven包读取sav格式文件library(haven)data <- read_sav("C:/pic/data/BESExpertSurveyData2017.sav")#数据探索summary(data)names(data)#####提取自变量和因变量#...原创 2018-02-27 15:52:30 · 19895 阅读 · 4 评论 -
【R语言 数据建模】模型验证武器
分类模型是数据挖掘中应用非常广泛的算法之一,常用的分类算法有Logistic模型、决策树、随机森林、神经网络、Boosting等。针对同一个数据集,可以有这么多的算法进行分析,那如何评估什么样的模型比较合理呢?本文就讲讲常用的模型验证武器,主要包括混淆矩阵、ROC曲线、提升度、增益法和KS统计量。一、混淆矩阵混淆矩阵就是如下图所示的那样,也是最简单的一种模型验证方法:通过混淆矩阵可以算出模型预测精度原创 2017-12-25 17:20:18 · 3512 阅读 · 2 评论 -
【R语言 字符串处理】stringr 包的强大之处
stringr包中主要内容:1、字符串拆分利器–str_split2、字符串替换利器–str_replace_all3、字符串抽取利器–str_match_all4、字符串截取利器–str_sub字符串处理中最为常见的四种手段有“拆、替、抽、取”。强烈推荐stringr包,个人觉得远比R自带的grep、regexp、strsplit、sub等函数好用。利器1:拆:str_splitstr_原创 2017-12-25 15:41:38 · 19736 阅读 · 0 评论 -
【R语言 数据合并】批量读取数据文件合并为一个excel表格
需求分析: 在一个文件夹下里面有很多excel文件,它们字段都一样,这时候需要把他们合并为一个excel表格。类型1:R语言合并同一个文件夹下的多个csv文件 rm(list = ls())options(scipen = 200)#########自定义函数################readCSV <- function(dir_dta){ file_list <- list.f原创 2017-12-25 14:00:01 · 35200 阅读 · 3 评论 -
【R语言 数据分析】豆瓣电影R语言爬虫和数据分析
主要内容: 1、r语言爬虫 rvest包的使用。 2、r语言字符串处理stringr包的使用。 3、r语言聚合dplyr 包的使用。 4、r语言可视化ggplot 包的使用。 5、r语言画词云图worldcloud2 包的使用。 6、正则表达式 str_match 的使用 7、sapply的用法。 8、字符串切割函数str_split的 用法。代码片段1(字符串切割和字符串正则匹配)原创 2017-12-25 10:50:59 · 11404 阅读 · 2 评论 -
【R语言 连接数据库 】RMySQL数据库编程指南
主要内容1、RMySQL介绍2、RMySQL安装方法3、R连接本地mysql4、R连接远程mysql5、R查询mysql数据6、R插入数据到mysql7、R调用mysql中的存储过程1. RMySQL介绍MySQL是一款最常用到开源数据库软件,安装简单,运行稳定,非常适用于中小型的数据存储。R作为数据分析的工具,当然要支持数据库驱动接口。让R和MySQL配合在一起,所能爆发出的能量是巨大原创 2017-12-12 16:34:22 · 1617 阅读 · 0 评论 -
【R语言 数据处理和可视化】一个手游公司销售额数据分析
主要知识点 1、读取csv(read.csv用法) 2、数据集合并(merge用法) 3、分组求和(aggregate用法) 4、日期格式处理(format(as.Date用法)) 5、数据可视化–条形图(ggplot用法)rm(list=ls())gc()options(scipen = 200)library(ggplot2)#读取数据##用户登陆时间DAU <- read.c原创 2017-12-12 14:33:39 · 2390 阅读 · 0 评论 -
【R语言 可视化】R语言画图增加次要刻度线
dose<-c(20,30,40,45,60)drugA<-c(16,20,27,40,60)plot(dose,drugA,xlim = c(0,70))library(Hmisc)minor.tick(nx=5,ny=5)原创 2017-06-13 10:13:50 · 6830 阅读 · 0 评论 -
【R 可视化】R 画关系网络图
rm(list=ls())library(igraph)#1.用igraph创建图表g<- graph(c(1,2, 1,8,1,9,1,10,2,4,2,5,2,6,2,3,3,7,3,11,3,12,3,1), directed=T)com = walktrap.community(g, steps = 6)V(g)$sg = com$membership + 1V(g)$color原创 2017-06-13 10:01:25 · 15407 阅读 · 0 评论 -
【R语言 函数】R语言聚合函数总结
> rm(list=ls())> > > # 聚合函数学习> data(iris)> ##tapply 分组求和> (aa<-tapply(iris$Sepal.Length,iris$Species,sum)) setosa versicolor virginica 250.3 296.8 329.4 > > ##rowsum 分组求和原创 2017-06-13 09:58:00 · 10019 阅读 · 0 评论 -
【R语言爬虫】R语言提交post请求抓取盈盈理财数据
一、需求分析 抓取盈盈理财数据 抓取url: https://licai.yingyinglicai.com/product/list.htm二、效果 三、实现源代码rm(list=ls())library(XML)library(RCurl)k=1url='https://licai.yingyinglicai.com/product/list.htm'web<-postForm原创 2017-05-26 17:34:11 · 7910 阅读 · 0 评论 -
【R语言数据导出txt】 write.table 函数用法
1)write.table函数语法:write.table (x, file ="", sep ="", row.names =TRUE, col.names =TRUE, quote =TRUE)参数说明: x:需要导出的数据 file:导出的文件路径 sep:分隔符,默认为空格(” “),也就是以空格为分割列 row.names:是否导出行序号,默认为TRUE,也就是导出行序号 col原创 2017-05-26 16:28:04 · 108397 阅读 · 3 评论 -
【R语言 数据分析】R语言获取Excel数据
一、问题描述:我们的数据放在Excel里面,数据格式后缀为.xls或者.xlsx。如何获取Excel中的数据呢?二、解决方案:R语言提供 xlsx 包 ,可以获取Excel中的数据。三、代码实现:#安装xlsx包if(!suppressWarnings(require(xlsx))){install.packages(“xlsx”)require(xlsx)}#1数据格式为.xlsexcel_dat原创 2017-05-25 17:36:07 · 6734 阅读 · 0 评论 -
【R语言 数据挖掘】R语言如何做关联规则?
一、前言 提到数据挖掘,我们第一反应就是之前听到的啤酒和尿不湿的故事,该故事就是典型的数据挖掘中的关联规则。购物篮分析区别于传统的线性回归的主要区别为,关联分析针对离散数据;下面我们利用R语言的arules包及Apriori算法对商品交易数据进行关联规则挖掘,二、常见关联规则:关联规则:牛奶=>鸡蛋【支持度=2%,置信度=60%】支持度:分析中的全部事务的2%同时购买了牛奶和鸡蛋,需设定域值,原创 2017-05-25 17:31:36 · 7062 阅读 · 0 评论 -
【R语言可视化】ggplot2 自定义柱状图
rm(list=ls())gc()library(ggplot2)# 我们拿到这样的数据name <- c("多","中","少","中","少")data <- data.frame(name) # 转化为数据框p2 <- ggplot(data,aes(x=name)) + geom_bar(width=0.7,fill=rgb(50,163,221,maxColorValue=原创 2017-05-25 16:10:25 · 11523 阅读 · 0 评论 -
【R语言可视化ggplot2入门教程1】一个完整的绘图流程
一、主要内容 1、首先简单画一个图出来 2、做一些等价调整 3、接受另一种类型的数据 4、简单的参数调整 5、纵坐标使用百分比表示 6、更改横纵轴坐标、标题等 7、在图中增加标注的文字 调整字体、背景等,达成excel的效果 8、保存图形 首先简单画一个图出来二、ggplot2 开始入门# 我们拿到这样的数据name <- c("多","中",原创 2017-05-25 15:50:18 · 35751 阅读 · 0 评论 -
【R语言数据类型】深入了解 向量、矩阵、数据框、列表
R语言数据类型有向量、矩阵、数据框、列表。下面我们来深入了解下:vector 的划分 R中的vector分为两类,atomic和list,二者的区别在于,前者元素类型必须相同,后者可以不同。前者的代表是向量和矩阵,后者的代表是list和数据框。创建向量、矩阵、数据框、列表# atomica <- 1:5b <- letters[1:5]c <- 1:10mat <- matrix(c,原创 2017-05-25 14:54:21 · 5671 阅读 · 0 评论 -
【R语言可视化】R语言画爱心图
数学系也可以很浪漫~~rm(list=ls())library(grid)heart <- function(lcolor){ t=seq(0, 2*pi, by=0.1) x=16*sin(t)^3 y=13*cos(t)-5*cos(2*t)-2*cos(3*t)-cos(4*t) a=(x-min(x))/(max(x)-min(x)) b=(y-min(y))/(max原创 2017-05-23 16:24:41 · 24243 阅读 · 8 评论 -
【R语言爬虫】网贷天眼平台表格数据爬虫1
一、需求分析 目标:利用R语言 rvest包 抓取网贷天眼数据平台表格数据。抓取url:http://www.p2peye.com/shuju/ptsj/二、抓取步骤讲解: 1、安装rvset包 install.packages(“rvest”) 2、加载rvest包 library(“rvset”) 3、read_html()函数下载网页源代码原创 2017-05-22 21:09:30 · 7891 阅读 · 0 评论 -
【R语言爬虫】R语言提交get请求抓取城城理财数据
一、需求分析 抓取城城理财数据。 抓取url: https://www.cclc.co/debts/lctz_all_all二、实现源代码rm(list=ls())library(XML)library(RCurl)url='https://www.cclc.co/debts/lctz_all_all'myheader <- c( "User-Agent"="Mozilla/5.0原创 2017-05-26 17:43:01 · 4032 阅读 · 0 评论 -
【混得好的都有这 5 种特质】优秀的年轻人都有这 5 大特质
第一,有好奇心,能够主动学习新事物、新知识和新技能。今天不太谦虚,我把自己当做正例,然后再说一个负例。我有个前同事,理论基础挺好,但每次都是把自己的工作做完就下班了。他在这家公司呆了一年多,但对网上的新技术、新工具都不去了解。所以他非常依赖别人。当他想要实现一个功能,他就需要有人帮他做后半部分,因为他自己只能做前半部分——如果是有好奇心的人,前端、后端、算法都去掌握、至少有所了解的话,那么很多调试分原创 2017-06-01 14:01:22 · 5316 阅读 · 0 评论 -
【R语言 算法设计】信用贷款余额计算
#####设置rm(list = ls())options(scipen =20)########################step0:读取数据##########################data<-read.table("E:\\贷款余额\\信用贷款.txt",sep="\t",header=T)#########################step1:数据处理#####原创 2017-06-13 09:55:43 · 2119 阅读 · 0 评论 -
【R语言 可视化】R语言 ggplot2 一张图画多个饼
author:laidefa date:2016-01-18 椰丝,终于画好了,要画好多个饼不容易啊 ,画都画饱了。 # data:2016-1-18# author:laidefarm(list=ls())gc()a=c(15,25,40,12,8)b=c(5,18,12,45,10)c=c(7,24,13,36,20)d=c(3,27,40,21,9)type=c("A",原创 2017-06-13 09:50:19 · 10658 阅读 · 0 评论 -
【R语言 爬虫】用R爬虫,爬取杭州安居客九堡租房信息
在当今互联网时代,数据要会挖,得先学会爬!爬的过程是痛苦的,因为在计算机程序开发领域,网络爬虫的开发是一个很专业的方向,技术门槛比较高,它所要求的综合知识很多,相信很多同学都望而却步了。别急,说话说到后面往往都有但是滴。 但是该领域的几个非常方便的工具已经被集成到R的一些第三方包中了,所以我们完全可以基于R用一种很容易实现的方式来实现互联网数据的抓取,让我们可以直接去挖掘互联网这座金矿。原创 2017-06-13 09:47:19 · 2805 阅读 · 0 评论 -
【R语言 可视化】我教你15分钟学会用R画各种统计图
data:2015-10-17 author:laidefa 有同学让我开始教他R语言,就先分享点东西把。学习R的曲线是陡峭的,有人教你才是正道,没人教你你至少要安静学习三个月甚至远远不止,才会驾轻熟重,才能养成那种R编程的感觉和习惯,这个过程是痛苦枯燥无味的。我以前是没人教的,自学成才(啧啧啧…….)。自己看书你要看到什么时候,还有你能静下心来坚持看下去么,看我这个简单的教程吧,立马学会,废话原创 2017-06-13 09:44:40 · 36429 阅读 · 3 评论 -
【R 语言 可视化】在直方图上面添加密度曲线
rm(list=ls())gc()set.seed(1234)score <- rnorm(n = 1000, m = 80, sd = 20)hist(score, freq=FALSE, xlab="Score", main="Distribution of score", col="lightgreen", xlim=c(0,原创 2017-06-12 16:51:24 · 21277 阅读 · 0 评论