
R
文章平均质量分 58
Watch_dou
一名算法工程师,欢迎交流,由于比较忙,来不及回复评论,有事可以私戳我
展开
-
R语言数据处理之缺失数据问题(一)
在用R语言进行数据处理时,也许会遇到如下问题,如何选取特定列(变量)数据不缺失且其他列数据缺失的行(样本)? 本代码是根据本人所做案例经验分享。temp<-rep(0,nrow(final))for i in 1:nrow(final) missval<-which(final[i,-x] %in% NA) if (length(missval)>0 and is.na(final[i,原创 2017-06-07 23:58:04 · 2435 阅读 · 0 评论 -
关联规则数据构建
关联规则数据的构建是实施算法的前提,在查阅大量的资料之后,也没有找到能讲得清晰的数据构建过程,以下数据的构建是本人对于数据的构建,仅供参考。以下案例仅仅针对,类似“每一行代表一个用户购买一个商品”。> x <- data.frame(item=c('a','b','a','b','c'),user=c('1','1','2','2','2'))> x item u...原创 2018-05-16 23:52:43 · 1022 阅读 · 0 评论 -
R语言批量变量命名/结果命名问题解决
在程序设计时,经常遇到批量变量重命名的问题,或者需要把每个结果都保存,给每一次的结果命名,以便选择性查看结果。 思路: 批量命名,最能想到的就是字符串,然而字符串不可以作为变量名,如何? 下面就是利用assign(字符串,fun)来解决将运行结果放入字符串plotList <- list()name <- temp_prop$replace_itemclass_num &...原创 2018-05-17 08:34:27 · 12495 阅读 · 0 评论 -
推荐算法之关联规则实例
利用的知识深度分箱 Apriori算法 数据连接、聚合等处理数据说明本数据来源于last.fm的数据 数据包含:1892 users 17632 artists12717 bi-directional user friend relations, i.e. 25434 (user_i, user_j) pairs avg. 13.443 f...原创 2018-05-14 09:58:30 · 4473 阅读 · 3 评论 -
推荐算法之协同过滤实例
接着上次的数据进行协同过滤算法应用应用的知识python的surprise R数据构建 KNNBasic KNNWithMeans KNNWithZScore数据处理与算法# 协同过滤算法数据构建user_artist_sum_weight &lt;- sqldf::sqldf('select userID,artistID, sum(weight) as play...原创 2018-05-14 10:10:32 · 2183 阅读 · 0 评论 -
推荐算法之矩阵分解实例
矩阵分解的数据利用的上篇文章的数据,协同过滤用到的知识python的surprise SVD SVDpp NMF算法与结果可视化# 可以使用上面提到的各种推荐系统算法from surprise import SVD,SVDpp,NMFfrom surprise import Datasetfrom surprise import print_perfimport...原创 2018-05-14 10:18:13 · 1164 阅读 · 6 评论 -
贝叶斯网络风险系统实例
应用的知识最优分段 主成分分析 贝叶斯网络 套袋算法 数据重命名、连接、聚合等等处理code#加载所需的包library(data.table)library(dplyr)library(psych)library(caret) library(smbinning) #设置工作路径setwd('D:\\R\\wokingdiretory\\work\\4_29'...原创 2018-05-14 10:36:30 · 2259 阅读 · 0 评论 -
网红数据分析实例
用户基本分析library(data.table)library(dplyr)library(ggthemr)library(showtext)library(cluster)library(sqldf)library(NbClust)library(psych)library(VGAM)library(nnet)library(easyGgplot2)require(s...原创 2018-05-14 17:12:23 · 4648 阅读 · 0 评论 -
ggplot2画图坐标轴数字设置不显示科学计数法
有时候看着R坐标轴的数字挺刺眼的,科学计数法的表示形式真让人难过,解决方法也是很简单的,如下设置就ok了!options(scipen=200)原创 2018-05-16 21:54:34 · 17088 阅读 · 0 评论 -
风险等级进行评价与预测
主要内容1、数据批量读取整合 2、缺失值插补 3、数据深度分箱 4、聚类划分风险等级 5、聚类结果处理 6、构建贝叶斯网络,划分训练与测试集7:3,训练集上正确率99.80989%,测试集上正确率97.76786%codelibrary(readxl)packageVersion('readxl')setwd("C:/R/working/523/新建文件夹/新数据")...原创 2018-06-08 16:43:50 · 1842 阅读 · 0 评论 -
ggplot2之你值得拥有
紧接上文,上会说到根据两个分类变量按某一数值型变量计算频率 ,下面接着扯扯ggplot2。 除了作图之外,其余部分跟上文差不多。这次就谈谈那个图。chdata <- read.csv('SI\\CH\\CHdata.csv',encoding = 'utf8')mytable <- xtabs(count.1.~ip_province+ISP,data = chdata)protable <-原创 2017-09-14 14:59:57 · 661 阅读 · 0 评论 -
ggplot2的基本绘图知识
ggplot2画图的强大之处想必用过R的都有所了解,关于ggplot2这个包就有专门的书籍介绍。 ggplot2基本要素: 数据(Data)和映射(Mapping) 几何对象(Geometric) 标尺(Scale) 统计变换(Statistics) 坐标系统(Coordinante) 图层(Layer) 分面(Facet) 主题(Theme) 关于ggplot2的讲解会持续更新原创 2017-08-29 17:47:42 · 2359 阅读 · 0 评论 -
ggplot2之Layer—— geoms(一)
上次讲到了一些基础知识,这次说一说ggplot2图层中的geoms,由于geoms内容太多,所以分6次说。 图层结合了数据,映射,几何(对象),统计(变换)和位置调整。通常,将使用geom_函数创建图层,如果需要,覆盖默认位置和stat。1. geom_abline 、geom_hline 、geom_vline——参考线:水平,垂直和对角线2. geom_bar 、geom_col 、stat_原创 2017-08-29 20:21:51 · 4874 阅读 · 0 评论 -
ggplot2之Layer—— geoms(二)
上次谈到了layer中跟geoms_有关的参考线、条形图、2d bin计数的热图、空图、盒式图。这次谈一些其他的图形及参数。1. geom_contour 、stat_contour —— 等高线2. geom_count、 stat_sum—— 计数重叠点3. geom_density_2d 、stat_density_—— 2d二维密度估计的等高线4. geom_density 、stat_de原创 2017-08-30 19:54:05 · 5486 阅读 · 1 评论 -
Rmarkdown的PDF文件插入本地图片
借助在其他端上的文件时不可以的,测试成功,在本地指定文件路径即可,如下:原创 2018-05-03 11:20:07 · 15358 阅读 · 3 评论 -
可视化之sunburst
图表简介旭日图(Sunburst Chart)是一种现代饼图,它超越传统的饼图和环图,能表达清晰的层级和归属关系,以父子层次结构来显示数据构成情况。旭日图中,离远点越近表示级别越高,相邻两层中,是内层包含外层的关系。图表用法旭日图可以更细分溯源分析数据,真正了解数据的具体构成。可视化devtools::install_github("timelyportfolio/...原创 2018-04-21 18:31:07 · 3682 阅读 · 1 评论 -
R语言分析分析大数据的一些问题
大数据分析包首先讲一下,处理大数据的data.table包特别好用,读入读出函数、连接函数、提取查询函数等。 或许你的电脑是4G内存,i5,我的电脑就是,32位,应该属于最低配置了,且C盘内存所剩无几,处理600万左右样本一般没问题。然而稍微大一些,导入数据时会提醒内存不足,再大些的数据量就会提醒需要升级64位信息。 若是做数据分析的,最好配置高一些的电脑,用了8G,i7,处理2000万左右原创 2017-07-15 20:46:32 · 4741 阅读 · 0 评论 -
R语言对爬取的天气数据进行整理
之前爬取了各省一年来的天气状况、气温等的数据,这次对其进行整理,目标是:1.批量输出每个省的每个月份出现频次最多的天气情况;2.批量输出每个省每个月的气温状况(包括对类似5℃/10℃数据的处理)。原创 2017-07-26 10:15:22 · 4573 阅读 · 0 评论 -
3D动态Network图
《Network Science》这本关于网络科学的简介,是大牛Albert-László Barabási的力作,书中的图美哭,值得一读。下面不妨感受一下。 社交网络,也叫知识图谱,关于它的应用也还是比较多的。 首先是“语义搜索”。因为知识图谱这个词最先是由谷歌在2012年提出的,作为谷歌的两大重要技术储备,一个是深度学习,形成了谷歌大脑;另一个就是知识图谱,用来支撑下一代搜索和原创 2018-01-11 18:19:08 · 4187 阅读 · 0 评论 -
R语言ggplot2条形图详解
本文内容来自个人做案例过程中遇到的一些问题,一是用普通的barplot(),所画条形图的条数太多,导致x轴的标签不能完全显示;二是用EXCEL可以解决一,但是画的条形图又不是太美观。因此,本文顺着这个方向,得到了一些启示,并对此作出总结。总体参数背景色设置x轴标签字体旋转一定的角度设置坐标轴取值范围添加数据图例设置保存图保存中中文乱码解决总体参数可参见官网...原创 2017-05-29 12:46:37 · 27178 阅读 · 2 评论 -
Rmarkdown安装配置、输出PDF正文中文以及图片中文配置
如果想用R的markdown做HTML或者word,OK,直接安装Rmarkdown即可(在安装此包之前需要安装knitr包),也不用担心中文乱码的问题。 实际上用上面得到的HTML或者word转化为也OK,然而对于有完美主义者的人来说,绝不会这么做,因为这样得到的PDF太垃圾,图简直TMD太糟糕。 事实上,好的东东是要付出代价的。配置安装 R、Rstudio 、 pandoc(...原创 2018-04-14 22:58:20 · 25227 阅读 · 11 评论 -
shiny + bootstrap + shinythemes + ggplot2 + sunburst 动态交互式可视化web框架搭建
利用shiny + bootstrap + shinythemes + ggplot2 + sunburst 搭建自己的交互式可视化web原创 2018-04-22 19:30:28 · 1083 阅读 · 0 评论 -
R语言gganimate动态可视化以及ImageMagick安装问题解决
gganimate安装gganimate是一款基于ggplot2的动态可视化扩展包,简单就是将ggplot2绘图对象转为gif动图的形式。devtools::install_github("dgrtwo/gganimate")library(gapminder)library(ggplot2)theme_set(theme_bw())g <- ggplot(gap...原创 2018-04-19 17:33:53 · 4873 阅读 · 2 评论 -
可视化之circular barplot
来源:https://www.r-graph-gallery.com/297-circular-barplot-with-groups/# Create datasetdata=data.frame( individual=paste( "Mister ", seq(1,60), sep=""), value=sample( seq(10,100), 60, replace=T))...翻译 2018-04-21 16:17:52 · 1427 阅读 · 0 评论 -
可视化之donut chart
来源:https://www.r-graph-gallery.com/130-ring-or-donut-chart/A donut chart is essentially a Pie Chart with an area of the centre cut out.Pie Charts are sometimes criticised for focusing readers on t...翻译 2018-04-21 16:33:38 · 2701 阅读 · 0 评论 -
ggplot2之Layer—— geoms(三)
接着上次继续说说。1. geom_hex 、stat_bin_hex——二进制计数器的六边形热图2. geom_freqpoly 、geom_histogram 、stat_bin——直方图和频率多边形3. geom_jitter——激动点数4. geom_crossbar 、geom_errorbar 、geom_linerange 、geom_pointrange——垂直间隔:线,横杠和错误栏5原创 2017-08-31 15:25:49 · 2769 阅读 · 0 评论