
R语言相关
文章平均质量分 87
EchoCaiCai
把一件事做到极致!
展开
-
时间序列的R语言实现_Part1
内容来自a little book of r for time series,查看资源请戳:点击打开链接。 翻译基本终于原文,加上了一些我自己的理解说明,有任何问题欢迎指正,谢谢!时间序列数据读取时间序列数据是指按时间排好序的数据。可以指定开始时间,时间周期等参数。下面是三个时间序列的读取的例子:1. 英国历任国王去世年龄klnq3Read42<一SCanite几翻译 2014-12-29 14:31:56 · 4612 阅读 · 0 评论 -
时间序列的R语言实现_Part2
用指数平滑做预测简单指数平滑(Simple Exponential Smoothing)对可用加性模型描述的,非周期性的时间序列数据,可用简单指数平滑来做短期的预测。指数平滑是根据平滑常熟α来做的,α取值在0-1的区间上,α越小越接近0,就表示做预测时对近期观测所取的比重较大。说明:指数平滑算法的原理就是利用历史观测数据对未来做预测,α的取值决定着对近期和远期观测数据所取的权重。详细的翻译 2014-12-30 16:08:45 · 4863 阅读 · 1 评论 -
R语言读取Excel文件
因为一个项目需要,原始数据全部是Excel文件,包括.xls和.xlsx格式,并且很多excel数据的格式并不规范,一个个转为csv格式不太现实,所以把所有能了解到的读取excel的方法都试了一遍,做个简单汇总。相关的包:RODBC、xlsx、openxlsx、gdata、readxl,测试平台win7。RODBC包-相关方法RODBC-odbcConnectExcel2007()原创 2015-11-25 13:34:44 · 85392 阅读 · 3 评论 -
R语言实现RMF模型
RMF模型说明RMF模型是客户管理中,常被用来衡量客户价值和客户创利能力的重要方法。它主要考量三个指标:最近一次消费-Recency:近期购买的客户倾向于再度购买消费频率-Frequency:经常购买的客户再次购买概率高消费金额-Monetary:消费金额较多的客户再次消费可能性更大根据上述三个维度,对客户做细分,假定每个维度划分成五个等级,得到客户的R值(1-5),F值(1-原创 2015-12-29 17:06:15 · 8321 阅读 · 0 评论 -
R语言做文本挖掘 Part1安装依赖包
Part1安装依赖包R语言中中文分析的软件包是Rwordseg,Rwordseg软件包依赖rJava包,rJava需要本机中有安装Java。 第一步是安装Java,请安装JDK,JRE不行。请对应机型,下载安装32位的JDK。机器里已经有JDK的也请改成32位的,不然没办法使用Rwordseg,尝试使用过64位的,不可行。下载地址:http://www.oracle.com/t原创 2015-03-05 15:00:43 · 9589 阅读 · 4 评论 -
R语言做文本挖掘 Part2分词处理
Part2分词处理在RStudio中安装完相关软件包之后,才能做相关分词处理,请参照Part1部分安装需要软件包。1. RWordseg功能说明文档可在http://download.youkuaiyun.com/detail/cl1143015961/8436741下载,这里只做简单介绍。分词> segmentCN(c("如果你因为错过太阳而流泪", "你也会错过星星原创 2015-03-06 23:57:29 · 23428 阅读 · 37 评论 -
R语言做文本挖掘 Part3文本聚类
Part3文本聚类分类和聚类算法,都是数据挖掘中最常接触到的算法,分类聚类算法分别有很多种。可以看下下面两篇文章对常见的分类聚类算法的简介:分类算法:http://blog.youkuaiyun.com/chl033/article/details/5204220聚类算法:http://blog.chinaunix.net/uid-10289334-id-3758310.html文本分原创 2015-03-16 20:54:35 · 18077 阅读 · 15 评论 -
R语言做文本挖掘 Part4文本分类
Part4文本分类Part3文本聚类里讲到过,分类跟聚类的简单差异。所以要做分类我们需要先整理出一个训练集,也就是已经有明确分类的文本;测试集,可以就用训练集来替代;预测集,就是未分类的文本,是分类方法最后的应用实现。1. 数据准备训练集准备是一个很繁琐的功能,暂时没发现什么省力的办法,根据文本内容去手动整理。这里还是使用的某品牌的官微数据,根据微博内容,我将它微博原创 2015-03-18 16:30:34 · 7471 阅读 · 9 评论 -
R语言做文本挖掘 Part5情感分析
Part5情感分析 这是这个系列里面最后一篇文章了,其实这里文本挖掘每一个部分单拎出来都是值得深究和仔细研究的,我还处于初级研究阶段,用R里面现成的算法,来实现自己的需求,当然还参考了众多网友的智慧结晶,所以也想把我的收获总结出来分享给大家,希望也能像我一样在看大家的分享时得到自己的启发。网上翻了下中文文本情感分析的一些文章,再回想了一下我自己做情感分析的方法,觉得我的想法真的是简单粗原创 2015-03-19 17:14:13 · 10674 阅读 · 11 评论 -
时间序列的R语言实现_Part3
ARIMA模型前面讲到的指数平滑模型,对于预测误差要求是无相关性并且结果是满足以0为中心的正态分布的。对时间序列作分析是,有些情况下,把相关性考虑进去能做更好的预测。ARIMA模型就包含了对时间序列的无规律部分做预测的模型,在无规律部分,允许出现非零相关性。 对时间序列做差分ARIMA模型是针对稳定时间序列的。若是你的分析对象是非稳定的时间序列,那么你首先就需要对时间序列做差分,直翻译 2015-01-05 17:01:47 · 2756 阅读 · 0 评论 -
提升R语言程序性能
1. 性能测评时间测定方法R中提供的测量时间最简单的方法是system.time函数。system.time(expr, gcFirst=TRUE)这个函数会在不降低程序运行性能的情况下,执行表达式expr,gcFrist则是指定程序运行前是否先执行垃圾回收。do.stuff <- function(){a <- 1:100000for(i in 1:100原创 2015-03-31 14:40:40 · 5265 阅读 · 0 评论 -
用R语言分析《我是歌手》出场顺序与名次的关系
上周《我是歌手》吵吵闹闹地落幕了,这一季是我最关注的一季,很认真的从头看到尾。网上各种讨论,特别反感那些说看到谁谁谁就不想看了的说法,其实单纯地去听他们的歌声,会觉得即使是之前不看好的那些歌手都能给你很多惊喜和感动。以前对清华哥哥的印象是歌都很好听,但是自己唱不红,翻唱都会变红啊,现在喜欢上他的声音了啊!不管这个节目有没有什么内部操作黑幕,单纯听他们的歌还是挺好的。当然,这篇文章的主旨不在此,我们原创 2015-04-02 13:19:08 · 3090 阅读 · 3 评论 -
R语言使用RMySQL连接及读写Mysql数据库
简单说下安装过程,一般不会有问题,重点是RMySQL的使用方式。系统环境说明Redhat系统:Linux 460-42.6.32-431.29.2.el6.x86_64系统编码:LANG=zh_CN.UTF-8(中文UTF-8格式)mysql版本:mysql Ver 14.14 Distrib 5.1.73, forredhat-linux-gnu (x86_64) using原创 2015-06-12 15:37:27 · 17551 阅读 · 0 评论 -
Redhat下在R中安装RODBC和RMySQL包
R里面连接数据库的包还挺多的,这两个是比较常用的。Redhat系统下,直接在R程序中用install.packages命令安装这两个包会出错,不可预测的错,可能是它需要依赖其它的软件。RODBC需要先安装下面两个:yum install unixODBCyum install unixODBC-develRMySQL需要先安装Mysql:yum install mysql-de原创 2015-06-11 17:00:28 · 1714 阅读 · 0 评论 -
R语言读写中文编码方式
R语言读写数据的方法很多,这里主要是我在使用read.csv/read.table和write.csv/write.table时遇到的一些中文格式编码的问题。常见的中文编码方式两种:GBK(GB2312)和UTF-8。 Windows系统下: read.csv()和read.table()方法不指定文件格式时,默认读取的文件是GBK格式。Rstudio里面有设置默认文本编码方式原创 2015-06-11 09:35:04 · 92237 阅读 · 4 评论 -
Redhat下R安装Rwordseg包
常用来做中文文本分析的一个包是Rwordseg,虽然很久没见更新了,但是在做中文分词时,它还是一个很好地选择。Rwordseg包的安装很容易出错,不管是在windows还是在Linux的系统下。之前在windows系统下装过一次,各种纠结最后搞定,最近转战Redhat又重新遭遇各种新问题。还是把过程记录下来,留作以后查看。 Rwordseg依赖包rJava,但是安装rJava包也是一个比原创 2015-06-01 20:12:45 · 2045 阅读 · 2 评论 -
回归预测及R语言实现 Part2 回归R语言实现
下面是回归分析的各种变体的简单介绍,解释变量和相应变量就是指自变量和因变量。 常用普通最小二乘(OLS)回归法来拟合实现简单线性、多项式和多元线性等回归模型。最小二乘法的基本原理前面已经说明了,使得预测值和观察值之差最小。 R中实现拟合线性模型最基本的函数是lm(),应用格式为: myfit data为观测数据,应该为一个data.frame,原创 2015-05-26 16:41:14 · 8143 阅读 · 0 评论 -
R语言进行中文分词和聚类
原文来自:http://www.csdn123.com/html/itweb/20130911/113549_113527_113553.htm目标:对大约6w条微博进行分类环境:R语言 由于时间较紧,且人手不够,不能采用分类方法,主要是没有时间人工分类一部分生成训练集……所以只能用聚类方法,聚类最简单的方法无外乎:K-means与层次聚类。尝试过使用K-means方法,但结果转载 2015-05-20 13:00:25 · 4529 阅读 · 0 评论 -
回归预测及R语言实现 Part1 回归基础综述
Part1 回归基础综述回归方法有很多种,最常见的是线性回归(又有一元和多元之分)、多项式回归、非线性回归。另外还将简单说明对预测结果的检验方法。 线性回归一元线性回归,是最简单最常见的回归模型,类似初中数学中的一元一次方程,它的基本模型如下:我们常见的一元线性回归方程一般没有最后一项,确切的说,我们在实际的应用中也忽略了最后一项。最后一项ui的现实意义是:它是指除原创 2015-05-19 10:24:52 · 2268 阅读 · 0 评论 -
R语言对苏州天气的分析及预测 温度篇
温度篇 前面已经讲了苏州的天气特点,还是用相同的数据,做接下来的苏州气温特点的分析预测,是的预测在这里! 首先看下2011年到2015年苏州整体的温度表现是什么样的。plot(suzhou$highestTemp,type="l",col="red",main="苏州2011-2015年气温图",xlab="时间轴",ylab="温度℃")lines(suz原创 2015-04-10 17:40:48 · 9487 阅读 · 6 评论 -
R语言对苏州天气的分析及预测 天气篇
坐标苏州,来这边刚好一年的时间,又到四月,梅雨季节(?)最能感受到烟雨江南的朦胧美,才怪!实际上的心情是,“清明时节雨纷纷,放假宅家欲断魂”,已经无力吐槽这春夏交战冬天突围的诡异天气变化了,正好有时间,所以想用高大上的技术语言来解读一下苏州的天气特点。 历史天气数据来源:http://tianqi.2345.com/wea_history/54511.htm,这是北京的历史数据,采样城市原创 2015-04-09 15:35:20 · 7098 阅读 · 15 评论 -
Redhat下安装配置R程序
主要是我在Redhat下开始尝试使用R时遇到的一些基本的问题,参考了很多文章,把自己的过程记录一下,留存。1. 安装R在Redhat下安装R程序有两种方式。一是下载编译安装,而是用yum安装。yum安装如果你的yum源能正常使用那么一条命令就能搞定:yum install R源码安装你可能需要自己定义一些安装项,那么可以选择源码安装。但是yum可以自动帮你下载安原创 2015-05-29 20:47:47 · 4127 阅读 · 0 评论