
R语言
程志伟
关注微信公共号:小程在线
展开
-
R语言使用RMySQL连接及读写Mysql数据库
关注微信公共号:小程在线关注优快云博客:程志伟的博客install.packages("RMySQL")library(RMySQL)help(package="RMySQL") #查看说明文档#创建数据库连接con <- dbConnect(MySQL(), host="", dbname="", user="", password="")summary(con) #获取连接信息dbGetInfo(con) #获取连接信息dbListTable...转载 2020-07-02 17:56:32 · 654 阅读 · 0 评论 -
R语言 两种方法连接oracle以及将处理后的数据导入数据库中
关注微信公共号:小程在线关注优快云博客:程志伟的博客一、通过RODBC包连接oracle1.首先在本机找到ODBC数据源,点击添加,按照自己的oracle,填写下面三个位置2.填写完之后,点击 test Connection,出现以下弹框。在password下输入密码,在点击OK。3.出现以下情况表示配置成功4.打开Rstudiolibrary("RODBC")connect <- odbcConnect(dsn = '本机上的',uid='用..原创 2020-07-01 19:40:17 · 1114 阅读 · 0 评论 -
R语言 一遍让你搞定R连接Hive以及hive的可视化工具
关注微信公共号:小程在线关注优快云博客:程志伟的博客R语言连接Hive、hive的可视化工具最重要的就是找对相应的jar,我会在微信公共号上列出详细的jar名称,不必加载所有的jar包。一、R语言连接Hive1.设置工作目录,并加载需要的包setwd('F:\\00czw\\20200628hive\\')library('rJava')library('DBI')library('RJDBC')2.f变量加载的是jar包所在的目录,修改相应的地址,用户...原创 2020-06-30 22:02:37 · 1541 阅读 · 0 评论 -
R语言 数据清洗(数据转换与哑变量处理)
关注微信公共号:小程在线关注优快云博客:程志伟的博客详细内容为 《R语言游戏数据分析与挖掘》第五章学习笔记之数据清洗5.3.1 数据转换5.2.2 哑变量处理# 产生衍生变量> rawdata <- read.csv("数据转换数据.csv",na.strings = NA)> # 查看数据的前六行> head(rawdata) play...原创 2020-05-08 16:44:01 · 6451 阅读 · 1 评论 -
R语言 数据清洗(缺失值处理、异常值处理)
关注微信公共号:小程在线关注优快云博客:程志伟的博客详细内容为 《R语言游戏数据分析与挖掘》第五章学习笔记之数据清洗setwd('H:\\程志伟\\R语言游戏数据分析与挖掘\\Game_DataMining_With_R-master\\data\\第5章\\')> ##### 5.2 数据清洗 ####> # 5.2.1 缺失值处理> # 导入玩家的玩...原创 2020-05-08 15:52:18 · 18286 阅读 · 1 评论 -
R语言 数据抽样(数据失衡处理、sample随机抽样、数据等比抽样、交叉验证抽样)
关注微信公共号:小程在线关注优快云博客:程志伟的博客详细内容为 《R语言游戏数据分析与挖掘》第五章学习笔记数据抽样包括:1.数据类不平衡问题解决2.随机抽样3.数据等比例抽样(用于多分类)4.用于交叉验证的样本抽取5.1.2类失衡处理方法在R中,DMwR包中的SMOTE()函数可以实现SMOTE方法。perc.over=500表示对原始数据集中的每个...原创 2020-05-04 21:53:06 · 5869 阅读 · 0 评论 -
R语言 cannot take a sample larger than the population when ‘replace = FALSE‘
> x <- seq(1,10);x[1] 1 2 3 4 5 6 7 8 9 10> # 利用sample函数对x进行无放回抽样> a <- sample(x,8,replace=FALSE);a[1] 10 6 5 4 1 8 2 7> # 利用sample函数对x进行有放回抽样> b <- samp...原创 2020-05-04 21:22:59 · 6608 阅读 · 0 评论 -
R语言 Kmeans聚类、PAM聚类、层次聚类、EM聚类
关注微信公共号:小程在线关注优快云博客:程志伟的博客R版本:3.6.1Kmeans函数:kmeans聚类pam函数:PAM聚类hclust函数:层次聚类cutree函数:层次聚类解Mclust函数:EM聚类mclustBIC函数:EM聚类> ##############对模拟数据的K-Means聚类> setwd('G:\\R语言\\大三下半年\...原创 2020-03-10 21:02:35 · 10088 阅读 · 2 评论 -
R语言 神经网络neuralnet和nnet
关注微信公共号:小程在线关注优快云博客:程志伟的博客neuralnet():建立B-P网络gwplot函数:神经网络变量重要性的可视化图形compute函数:利用神经网络进行预测nnet函数:建立B-P网络> setwd('G:\\R语言\\大三下半年\\数据挖掘:R语言实战\\')> library("neuralnet")> BuyOrNot&l...原创 2020-03-05 11:59:32 · 17147 阅读 · 2 评论 -
R语言 决策树、bagging、boosting、随机森林
关注微信公共号:小程在线关注优快云博客:程志伟的博客R版本:3.6.1rpart():建立分类回归树rpart.plot():可视化分类回归树rpart.control():设置分类回归树的参数printcp():查看复杂度参数CPplotcp():可视化复杂度参数CPprune():得到决策树的修剪子树bagging():利用袋装技术建立组合预测模型pr...原创 2020-03-03 15:39:21 · 7439 阅读 · 10 评论 -
R语言 K最近邻算法2
关注微信公共号:小程在线关注优快云博客:程志伟的博客R版本:3.6.1K-最近邻算法:a.距离:闵可夫斯基距离、欧式距离、绝对距离、切比雪夫距离、夹角余弦距离b.临近个数:1-邻近法:以一个最近距离表示该类别,错误率不会高于普通贝叶斯的两倍。旁置法:70%的训练集和30%的测试集,适合样本大的情况。留一法:抽取一个样本作为测试集,这个过程需要重复N次,取平均值...原创 2020-03-01 19:40:01 · 3953 阅读 · 0 评论 -
R语言 用nnet实现人工神经网络
关注微信公共号:小程在线关注优快云博客:程志伟的博客R版本:3.6.1nnet包:用于创建人工神经网络nnet函数:用于人工神经网络的建立> setwd('G:\\R语言\\大三下半年\\数据挖掘:R语言实战\\')> library(nnet)> wine=read.csv("G:\\R语言\\大三下半年\\数据挖掘:R语言实战\\数据挖掘:R语...原创 2020-02-29 16:21:41 · 10072 阅读 · 0 评论 -
R语言 支持向量机(class.weights可以对类别的权重进行调整,提高准确度)
关注微信公共号:小程在线关注优快云博客:程志伟的博客R版本:3.6.1e1701包:用于支持向量机模型SVM函数:利用数据构建支持向量机模型> library('e1071')Warning message:程辑包‘e1071’是用R版本3.6.2 来建造的> setwd('G:\\R语言\\大三下半年\\数据挖掘:R语言实战\\')>...原创 2020-02-28 16:25:19 · 2006 阅读 · 0 评论 -
R语言 随机森林
关注微信公共号:小程在线关注优快云博客:程志伟的博客R版本:3.6.1randomForest包:提供randomForest()函数用于随机森林的建立rflmpute()函数:对数据缺失值进行插补treesize()函数: 查看模型每颗决策树的节点数importtance():提取模型中各变量对模型的重要性> setwd('G:\\R语言\\大三下...原创 2020-02-27 20:37:20 · 6059 阅读 · 3 评论 -
R语言 集成算法(Bagging算法和Adaboot算法)
关注公共号:小程在线关注优快云博客:程志伟的博客R版本:3.6.1adaboost包:提供Bagging函数和Adaboot函数> setwd('G:\\R语言\\大三下半年\\数据挖掘:R语言实战\\')> data=read.csv("G:\\R语言\\大三下半年\\数据挖掘:R语言实战\\数据挖掘:R语言实战(案例数据集)\\10 集成学习\\bank....原创 2020-02-26 20:58:23 · 1634 阅读 · 1 评论 -
R语言 CART算法和C4.5算法(决策树)
关注微信号:小程在线关注优快云博客:程志伟的博客R版本:3.4.4最新的R官网取消了mvpart包,有需要的可以留言或者加微信,我用R3.6.1版本的显示这个包不能使用。还需要安装java环境,下载jdk,配置环境变量。draw.tree函数:绘制树状图J48函数:实现C4.5算法maptree包:提供draw.tree函数mvpart包:提供数据集car.tes...原创 2020-02-26 14:39:00 · 5989 阅读 · 1 评论 -
R语言 判别分析:线性判别、K最邻近、有权重的K最邻近、朴素贝叶斯
关注微信公共号:小程在线关注优快云博客:程志伟的博客class包:提供Knn()函数kknn包:提供kknn()函数及miete数据集(房租信息)kknn函数:实现有权重的K最近邻knn函数:实现K最近邻算法klaR包:提供NavieBayes()函数lda函数:线性判别MASS包:提供lda()和qda()函数NavieBayes()函数:实现朴素贝叶斯算法...原创 2020-02-25 17:34:42 · 3430 阅读 · 0 评论 -
R语言 均值聚类、中心聚类、系谱聚类、密度聚类、最大期望聚类
关注微信公共号:小程在线关注优快云博客:程志伟的博客R版本:v_3.6.1主要讲述5类聚类:K-means聚类K-中心聚类系谱聚类密度聚类EM聚类5种聚类的应用实例以及详细的参数说明如下:数据导入数据:> countries = read.csv('G:\\R语言\\大三下半年\\数据挖掘:R语言实战\\数据挖掘:R语...原创 2020-02-24 19:23:07 · 1298 阅读 · 1 评论 -
R语言 数据挖掘:R语言实战 第六章 关联分析
关注微信公共号:小程在线关注优快云博客:程志伟的博客举例说明关联规则里面的核心概念--支持度、置信度、提升度假设有10000个消费者,购买了1000个尿布,2000个啤酒,500个面包,这其中同时购买尿布和啤酒的800个,同时购买尿布和面包的100个。1)支持度:在所有项集中{X,Y}出现的概率。可以通过设置最小的支持度,来剔除那边没有关联的商品。 尿布和啤酒额支持度...原创 2020-02-23 15:59:42 · 1312 阅读 · 0 评论 -
R语言 一元线性回归、多元线性、多项式回归
关注微信号:小程在线关注优快云博客:程志伟的博客R版本:3.6.1本节主要介绍了一元线性回归、多元线性、多项式回归。重点介绍了summary里面每个参数的意义;创建训练集、测试集;多项式poly()函数以及I()函数的使用。###########一元线性回归#############> library(MASS)> data(Boston) #...原创 2020-02-22 19:24:23 · 3756 阅读 · 1 评论 -
R语言 Evaluation error: as_dictionary()is defunct as of rlang 0.3.0. Please useas_data_pronoun() inst
Evaluation error:as_dictionary()is defunct as of rlang 0.3.0. Please useas_data_pronoun()instead.解决方法:升级dplyr包,这个过程持续10分钟左右,耐心等待install.packages('dplyr')...原创 2020-02-21 22:14:34 · 804 阅读 · 0 评论 -
R语言 数据预处理
关注微信号:小程在线关注优快云博客:程志伟的博客数据预处理包括:1.数据采样:sample()2.修改变量名:tolower()、strsplit()3.产生新的变量:cut()4.数据离散化5.日期处理:lubridate包、paste()、ymd()6.数据二值化7.合并数据集:merge()8.排列数据集:order()9.重塑数据集:me...原创 2020-02-21 22:10:34 · 2411 阅读 · 0 评论 -
R语言 could not find function “forecast.HoltWinters“
各位朋友,我已开通微信公共号:小程在线我会把文章及时的更新到公共号上,欢迎大家的关注。could not find function "forecast.HoltWinters"解决方法:library(forecast)加载这个包;加载之后还是报错了,因为现在用的版本是3.5.2版本的;切换至3.4.4版本就运行正常了。...原创 2019-11-13 15:59:11 · 3718 阅读 · 0 评论 -
用R语言实现对不平衡数据的四种处理方法
在对不平衡的分类数据集进行建模时,机器学习算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性。那么,这种结果是为何发生的呢?到底是什么因素影响了这些算法的表现?在不平衡的数据中,任一算法都没法从样本量少的类中获取足够的信息来进行精确预测。因此,机器学习算法常常被要求应用在平衡数据集上。那我们该如何处理不平衡数据集?本文会介绍一些相关方法,它们并不复杂只是技巧性比较强。...转载 2019-10-21 19:32:38 · 4994 阅读 · 0 评论 -
R语言基本操作函数(1)变量的基本操作
R语言基本操作函数(1)变量的基本操作转载 2016-05-17 22:28:48 · 4825 阅读 · 0 评论 -
R语言 Holt-Winters法
有增长或者降低趋势并且存在季节性波动的时间序列的预测算法即Holt-Winters,这种序列可以被分解为水平趋势部分、季节波动部分,因此这两个因素应该在算法中有对应的参数来控制。Holt-Winters算法中提供了alpha、beta和gamma 来分别对应当前点的水平、趋势部分和季节部分,参数的去执法范围都是0-1之间,并且参数接近0时,近期的观测值的影响权重就越小。我们以澳大利亚昆士兰州海滨纪...转载 2018-06-20 17:48:29 · 10191 阅读 · 2 评论 -
R语言 霍尔特指数平滑法(Holt)
有增长或者降低趋势的,没有季节性可相加模型的时间序列预测算法---霍尔特指数平滑法(Holt)。Holt 指数平滑法估计当前时间的水平和斜率。其平滑水平是由两个参数控制,alpha:估计当前点水平;beta:估计当前点趋势部分斜率。两个参数都介于0-1之间,当参数越接近0,大部分近期的观测值的权值将较小。我们以1866年到1911年每年女士裙子直径为案例,我们首先录入数据并绘制出该序列:[plai...转载 2018-06-20 17:46:39 · 13152 阅读 · 2 评论 -
R语言 简单指数平滑法
简单指数平滑适用于可用相加模型描述,并且处于恒定水平和没有季节变动的时间序列地短期预测。简单指数平滑法提供了一种方法估计当前时间点上的水平。为了更加准确的估计当前时间的水平,我们使用alpha参数来控制平滑,alpha的取值在0-1之间。当alpha越接近0,临近预测的观测值在预测中的权重就越小。我们采用伦敦1813年到1912年全部的每年每英尺降雨量来做分析对象,首先读入相关数据和绘制出序列图:...转载 2018-06-20 17:44:56 · 11489 阅读 · 0 评论 -
R语言 写入数据库数据时报错Error in .local(conn, statement, ...) :
各位朋友,我已开通微信公共号:小程在线我会把文章及时的更新到公共号上,欢迎大家的关注。Error in .local(conn, statement, ...) : execute JDBC update query failed in dbSendUpdate (鍐呴儴閿欒: Overflow Exception trying to bind NaN);发生这个错误的...原创 2018-06-19 10:58:58 · 3836 阅读 · 1 评论 -
R语言 时间序列arima模型
基本理论知识 ARMA模型称为自回归移动平均模型,是时间序列里常用的模型之一。ARMA模型是对不含季节变动的平稳序列进行建模。它将序列值表示为过去值和过去扰动项的加权和。模型形式如下:yt=c+a1yt−1+a2yt−2+...+apyt−p+ϵt−b1ϵt−1−b2ϵt−2−...−bqϵt−qyt=c+a1yt−1+a2yt−2+...+apyt−p+ϵt−b1ϵt−1−b2ϵt−2−.....转载 2018-06-20 20:55:27 · 33076 阅读 · 4 评论 -
R语言中的SMOTE算法的参数解释
在R的DMwR包中提供了SMOTE函数用于不平衡的分类问题,其背后的原理是SMOTE算法。SMOTE函数产生一个新的数据集来解决分类不平衡的问题。 用法: SMOTE(form, data, perc.over = 200, k = 5, perc.under = 200, learner = NULL, …) 参数解释: form:描述预测问题的公式 data:原始的不平衡的数据集 k:用于产生...转载 2018-06-12 14:26:12 · 8380 阅读 · 0 评论 -
rvest包优雅的爬取猎聘网招聘信息
library(rvest)url<-"https://www.liepin.com/zhaopin/?init=1"#内存要大page<-read_html(url) position<-page%>%html_nodes('ul.sojob_list div.sojob-item-main div.job-info,h3 a')%>%html_text(trim ...转载 2018-07-06 11:09:07 · 494 阅读 · 0 评论 -
R语言 scorecard包 评分卡
各位朋友,我已开通微信公共号:小程在线我会把文章及时的更新到公共号上,欢迎大家的关注。library(scorecard)data("germancredit")print(dim(germancredit))print(names(germancredit))print(head(germancredit[,20:21]))# 变量选择dt_s <- var_...原创 2018-08-05 17:49:25 · 7174 阅读 · 12 评论 -
R语言 层次分析法
各位朋友,我已开通微信公共号:小程在线我会把文章及时的更新到公共号上,欢迎大家的关注。层次分析法的基本思路:先分解后综合首先将所要分析的问题层次化,根据问题的性质和要达到的总目标,将问题分解成不同的组成因素,按照因素间的相互关系及隶属关系,将因素按不同层次聚集组合,形成一个多层分析结构模型,最终归结为最低层(方案、措施、指标等)相对于最高层(总目标)相对重要程度的权值或相对优劣次...原创 2018-08-05 17:49:01 · 20880 阅读 · 5 评论 -
R语言 RFM模型和LRFMC模型
我们说RFM模型由R(最近消费时间间隔)、F(消费频次)和M(消费总额)三个指标构成,通过该模型识别出高价值客户。但该模型并不完全适合所有行业,如航空行业,直接使用M指标并不能反映客户的真实价值,因为“长途低等舱”可能没有“短途高等舱”价值高。所以得根据实际行业灵活调整RFM模型的指标,本文就拿航空公司的数据为例,将RFM模型构建成L(入会至当前时间的间隔,反映可能的活跃时长)、R(最近消费时间距...转载 2018-08-05 17:48:27 · 3426 阅读 · 0 评论 -
R语言 安装FSelector包报错误
各位朋友,我已开通微信公共号:小程在线我会把文章及时的更新到公共号上,欢迎大家的关注。R语言 安装FSelector包Error in .jnew("weka/core/Attribute", attname[i], .jcast(levels, "java/util/List")) : java.lang.UnsupportedClassVersionError: wek...原创 2019-01-24 20:16:38 · 1415 阅读 · 0 评论 -
R语言 select
各位朋友,我已开通微信公共号:小程在线我会把文章及时的更新到公共号上,欢迎大家的关注。library(tidyverse)library(nycflights13)# 检索单个列flights %>% select(year)head(flights)# 检索多个列flights %>% select(year,month,day)# flights有哪些列...原创 2019-01-29 19:56:28 · 18129 阅读 · 0 评论 -
R语言 Error in parse_repo_spec(repo) : Invalid git repo specification: ‘riv‘
各位朋友,我已开通微信公共号:小程在线我会把文章及时的更新到公共号上,欢迎大家的关注。R使用iv.mult函数报错此函数基于woe包,使用下面语句进行下载(R-3.4.4版本),使用R-3.5.1版本会报错install_github("riv","tomasgreif",force = TRUE)下载好之后,将R-3.4.4下的woe包复制到对应的R-3.5.1的lib...原创 2019-01-29 20:48:59 · 6138 阅读 · 0 评论 -
6.R语言 分类回归树--决策树、随机森林
各位朋友,我已开通微信公共号:小程在线我会把文章及时的更新到公共号上,欢迎大家的关注。1.回归树data(prostate)prostate$gleason <- ifelse(prostate$gleason == 6, 0, 1)pros.train <- subset(prostate, train == TRUE)[, 1:9]pros.test = subs...原创 2019-03-26 22:16:06 · 6652 阅读 · 0 评论 -
R语言分层抽样(strata函数)
各位朋友,我已开通微信公共号:小程在线我会把文章及时的更新到公共号上,欢迎大家的关注。library(sampling)strata(data,stratanames=NULL,size,method=c("srswor","srswr","poisson","systematic"),pik,description=FALS)stratanames: 进行分层所依据的...原创 2018-06-04 20:14:07 · 28081 阅读 · 5 评论