
R语言
SunWuKong_Hadoop
人和人之间的能力是在8小时之外拉开的。
Notoriously torture the data until it confessed
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
R(一): R基础知识
R 是一门拥有统计分析及作图功能的免费软件,主要用于数学建模、统计计算、数据处理、可视化等方向。据 IEEE Spectrum发布的2016年编程语言前10位排名来看,R语言由2015年排名第6位上升级2016年的第5位。目前在CRAN 上发布的算法包已经超过8000+多个。R体系涉及到高等数据、概率学、统计学、IT技术等多种知识的综合应用,虽然看起来超级复杂,但学过程还是得从基础开始。转载 2016-12-30 10:34:48 · 2711 阅读 · 0 评论 -
R提高篇(三): 数据管理一
目录:创建新变量 变量重编码 日期值 数据排序 数据集合并 数据子集 随机取样创建新变量算术运算函数:x%%y 【求余 x mod y, 5%%2的结果为1】, x%/%y 【整数除法,5% / %2 结果为2】, ^或 ** 求幂 如下示例数据,在对象中增加平均、合计变量(场景不大合适,主要为了说明问题) 有多种方式来实现新增变量的处理,推荐使用 transf...转载 2016-12-30 10:39:52 · 363 阅读 · 0 评论 -
R提高篇(四): 数据管理二
目录:数学函数 统计函数 应用示例 控制流数学函数ceiling(x): 大于等于 x 的最小整数, 如: ceiling(3.213) --> 4 floor(x): 小于等于 x 的最大整数,如: floor(3.6534) --> 3 trunc(x): 取x的整数部分, 如: trunc(5.999) --...转载 2016-12-30 10:40:25 · 764 阅读 · 0 评论 -
R提高篇(五): 描述性统计分析
数据作为信息的载体,要分析数据中包含的主要信息,即要分析数据的主要特征(即数据的数字特征), 对于数据的数字特征, 包含数据的集中位置、分散程度和数据分布,常用统计项目如下:集中趋势统计量: 均值(Mean)、中位数(Median)、众数(Mode)、百分位数 离散趋势统计量:标准差(sd)、方差(var)、极差(range)、变异系数(CV)、标准误、样本校正平方和(CSS)、样本未校正...转载 2016-12-30 10:40:54 · 4699 阅读 · 0 评论 -
R提高篇(一): 输入输出
目录:文本输出图形输出数据输入数据框输出文本导入Excel导入文本输出语法: sink(file = NULL, append = FALSE, type = c("output", "message"), split = FALSE)默认情况,如果文件已经存在,则内容会被覆盖,如果 append = TRUE 可以将文本追加到文件后split = TR转载 2016-12-30 10:38:54 · 497 阅读 · 0 评论 -
R(八): R分词统计-老九门
分析文本内容基本的步骤:提取文本中的词语 -> 统计词语频率 -> 词频属性可视化。词频:能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多。词云:让词语的频率属性可视化,更加直观清晰。文本下载地址(http://www.yuandn.com/booktxt/59797/#download 效果图是将老九门12章后面内容删除后结果)目录:效果示例图分词包介绍及转载 2016-12-30 10:38:15 · 1598 阅读 · 0 评论 -
R(七): R开发实例-map热力图
第四章通过REmap包完成基于map分布图示例,前面提到REmap基于Echart2.0, 一方面在移动终端适应效果差,另一方面REmap提供的热力图仅支持全国及省市大版块map,基于上面的原因,参考 http://echarts.baidu.com/examples.html#chart-type-heatmap ,利用第四章清洗后的数据结合Echart3热力图控件开发完整可缩放地图的热力分布。转载 2016-12-30 10:37:43 · 3542 阅读 · 0 评论 -
R(五): R常用函数
工作笔记记录,会持续更新....目录:applytapplylapplysapplymergesubstr、substring、strsplit、unlist、paste、paste0、nchartableapply函数:apply:apply的中文意思是应用,这个函数的意思是通过将一个函数应用到矩阵或数组中,返回一个向量或数组语法:apply(X, MARGI转载 2016-12-30 10:37:15 · 544 阅读 · 0 评论 -
R(六): RODBC 访问SqlServer
在我的实际工作中,数据来源一方面是关系型数据库MS SqlServer, 别一方面是HBase。本节主要介绍通过RODBC访问MS SqlServer 安装配置,参见资料(https://msdn.microsoft.com/en-us/library/hh568454(v=sql.110).aspx),请注意:下载的msodbc 的版本与 unixODBC的版本之间有强制的对应关系,参见:(转载 2016-12-30 10:36:46 · 739 阅读 · 0 评论 -
R(四): R开发实例-map分布图
前几章对R语言的运行原理、基本语法、数据类型、环境部署等基础知识作了简单介绍,本节将结合具体案例进行验证测试。 案例场景:从互联网下载全国三甲医院数据,以地图作为背景,展现各医院在地图上的分布图。全国三甲医院数据来源 http://www.wxmp.cn/cms/detail-51610-23480-1.html 目录:map包研究效果图数据清洗R开发R脚本部署map包研究转载 2016-12-30 10:36:18 · 2473 阅读 · 0 评论 -
R(三): R包原理及安装
包(package)是多个函数的集合,常作为分享代码的基本单元,代码封装成包可以方便其他用户使用。越来越多的R包正在由世界上不同的人所创建并分发,这些分发的R包,可以从CRAN 或 github 上获取,由于向 CRAN 提交包审核非常严格,有些开发者并没有将自己开发的R包提至CRAN的意向,通过 devtools 可以轻松从 github上下载安装。包的生命周期一般会经历 source、bund转载 2016-12-30 10:35:43 · 1978 阅读 · 0 评论 -
R(二): http与R脚本通讯环境安装
结合实际的工作环境,在开始R研究的时候,首先着手收集的就是能以Web方式发布R运行结果的基础框架,无耐的是,R一直以来常使用于个人电脑的客户端程序上,大家习惯性的下载R安装包,在自己的电脑上安装 --> 写算法 --> 运行 --> 以贴图或者文档的形式发表自己的作品。花了较长时间,终于找着了一套框架基本满足要求,即FastRWeb (Fast Interactive Web Framework转载 2016-12-30 10:35:20 · 1215 阅读 · 0 评论 -
R提高篇(二): 图形初阶
目录:图形示例 图形参数 符号、线条 颜色 文本属性 尺寸与边界 自定义标题 自定义坐标轴 图例 文本标注 图形组合图形示例如下代码描述病人对两种药物五个剂量水平上的响应情况 > mydata <- data.frame(dose=numeric(0),drugA=numeric(0),drugB=numeric(0))> fix(myd...转载 2016-12-30 10:39:21 · 425 阅读 · 0 评论