
R语言
文章平均质量分 90
jiabiao1602
目前就职于世界百强企业!已经从事数据分析工作10年以上。曾经从事过咨询、电商、电购、电力、互联网等行业,了解不同领域的数据特点,目前主要用R语言做大数据分析和建模、数据可视化研究工作。撰写书籍《R语言与数据挖掘》、《R语言游戏数据分析与挖掘》等书籍
展开
-
《Keras深度学习:入门、实战与进阶》之回归问题实例:波士顿房价预测
本节将要预测20世纪70年代中期波士顿郊区房屋价格的中位数。原创 2023-02-03 21:16:23 · 838 阅读 · 0 评论 -
R语言文本挖掘相关包介绍
文本挖掘被描述为“自动化或半自动化处理文本的过程”,中文分词的结果就可以直接用来建立文本对象,最常用的结构就是词条与文档的关系矩阵,利用这个矩阵可以使用很多文本挖掘的算法来得到不同的结果,包括相似度计算、文本聚类、文本分类、主题模型、情感分析等。文本挖掘:基于基础R对象的文本挖掘框架,包含常用的文本挖掘模型,包含一些独立的NLP库,比如CRF++、word2vec等。Rwordseg包完全引用了Ansj包,在这个Java包的基础上开发了R的接口,并根据R处理文本的习惯进行了调整。原创 2022-08-20 22:12:07 · 1327 阅读 · 0 评论 -
对彩色花图像进行分类-基于R语言的Keras实现
该案例摘自《Keras深度学习入门、实战及进阶》第四章综合案例内容。该案例的数据来源于Kaggle上的Flower Color Images(https://www.kaggle.com/olgabelitskaya/flower-color-images)。数据内容非常简单:包含10种开花植物的210张图像(128×128×3)和带有标签的文件flower-labels.csv,照片文件采用.png格式,标签为整数(0~9)。使用read.csv()将带有标签的文件flower-labels.csv原创 2022-04-07 00:17:30 · 3137 阅读 · 0 评论 -
R语言数据操作基础
1、控制流 既然R语言是一种语言,那么就应该包含所有串行语言都有的基本控制原创 2014-09-19 11:08:21 · 2543 阅读 · 0 评论 -
【读书笔记】R语言的绘图基础
3.1 概述R语言绘图函数分类 分类描述1绘图窗口操作函数新建绘图窗口,设置当前活动窗口操作2高级绘图函数如何add=FALSE(默认),则在新窗口中创建一个图形;如何add=TRUE,则在当前活动窗口中图形叠加在原有的图形之上3原创 2014-09-20 14:59:06 · 1659 阅读 · 0 评论 -
R语言建立回归分析,并利用VIF查看共线性问题的例子
使用R对内置longley数据集进行回归分析,如果以GNP.deflator作为因变量y,问这个数据集是否存在多重共线性问题?应该选择哪些变量参与回归?答:## 查看longley的数据结构str(longley)## 'data.frame': 16 obs. of 7 variables:## $ GNP.deflator: num 83 88.5 88原创 2014-09-10 09:06:32 · 71647 阅读 · 5 评论 -
R做线性回归及检验
使用R对内置鸢尾花数据集iris(在R提示符下输入iris回车可看到内容)进行回归分析,自行选择因变量和自变量,注意Species这个分类变量的处理方法## 将iris数据加载进来attach(iris)## 查看iris数据的整体情况str(iris)## 'data.frame': 150 obs. of 5 variables:## $ Se原创 2014-09-24 09:35:09 · 7940 阅读 · 0 评论 -
R 字符函数 文本处理
理文本是每一种计算机语言都应该具备的功能,但不是每一种语言都侧重于处理文本。R语言是统计的语言,处理文本不是它的强项,perl语言这方面的功能比R不知要强多少倍。幸运的是R语言的可扩展能力很强,DNA/RNA/AA等生物序列现在已经可以使用R来处理。R语言处理文本的能力虽然不强,但适当用用还是可以大幅提高工作效率的,而且有些文本操作还不得不用。高效处理文本少不了正则表达式(regular转载 2014-09-26 12:57:59 · 987 阅读 · 0 评论 -
利用R将本地数据文件读入redis数据库中
从本地读取一个文本数据文件,从左到右分别是用户id,口令,邮箱,在redis建立合适的数据模型,并将这些数据导入到redis 答:先将作业素材的数据放在R的默认路径下 [root@192 ~]# R R version 3.1.0 (2014-04-10) -- "Spring Dance"Copyright (C) 2014 The R Foundation for Stat原创 2014-09-17 09:42:08 · 973 阅读 · 0 评论 -
R不务正业之RCurl
原文地址:http://www.cnblogs.com/medo/archive/2010/01/02/1637839.html转载 2014-09-17 09:37:52 · 1110 阅读 · 0 评论 -
利用RCurl包完成自己感兴趣的团购信息【批量】抓取
library(RCurl)library(XML)#读取拉手深圳美食搜索start_url = "http://shenzhen.lashou.com/cate/meishi"#构造请求头cust_header =c("User-Agent"="Mozilla/5.0 (Windows NT 6.1; WOW64; rv:26.0) Gecko/20100101 Firefo原创 2014-11-06 10:28:56 · 4110 阅读 · 6 评论 -
R语言处理缺失数据的高级方法
原文地址: http://blog.youkuaiyun.com/lilanfeng1991/article/details/36467891转载 2014-10-29 11:32:35 · 2809 阅读 · 0 评论 -
RWeka用法
转载地址http://blog.sina.com.cn/s/blog_551d7bff01016qa1.html今天在找关联规则相关的资料时候,无意发现R语言中文论坛,虽然里面的资料有限,但是很有价值,譬如RWeka,一种开源的机器学习工具,在此予以介绍:1)Weka:Weka有两种意思:一种不会飞的鸟的名字,一个机器学习开源项目的简称(Waikato Environment fo转载 2014-10-29 10:55:57 · 1233 阅读 · 0 评论 -
R语言:R-hive-mysql-php 可视化
接触R语言一段时间,在游戏行业里面采用R对大数据处理与分析似乎还不那么普片,由于R语言的开源性质给我们带来了很多方便与灵活。最近一段时间在构建挖掘分析平台上运用了R语言,也感觉开辟了一个新的天地。 基于分布式的Hadoop在数据储存读取过程已经有了一定的优势,依靠这样的优势直接运用R语言的RJDBC包链接Hive传递SQL进行数据查询导入, 得到的数据在R语言里面进行数据预处理与算法转载 2014-10-29 10:59:25 · 1816 阅读 · 2 评论 -
R语言 一元线性回归
一元线性回归分析首先介绍回归分析中最基础的情况:一元线性回归分析。它规定模型f函数只能是y=k*x+b的形式,即只使用一个变量x(故称为一元)的线性形式来预测目标变量y。6.1.1引例利用某网站历次促销活动中促销让利费用和销售金额的数据(单位是十万元),将使用该数据集来说明线性回归分析的应用。使用如下语句来绘制其散点图:costsalesdataplot(data,原创 2014-10-14 11:35:10 · 8384 阅读 · 1 评论 -
R语言 CART决策回归树
6.4 回归树 CART回归树(也称为分类回归树CART)主要以一种树状结构来表达回归分析模型的回归算法,该类方法不仅可以应用于回归分析(称为回归树),也可以用于分类分析(称为分类树)。6.4.1 rpart函数library(rpart)sol.rpartplot(sol.rpart,uniform=TRUE,compress=TRUE,lty=3,branch=0.7)原创 2014-10-16 22:05:46 · 11584 阅读 · 0 评论 -
【读书笔记】数据分析 基础知识
第一章 引言1.1 做为科学的统计统计是科学(science),而科学的基本特征是方法论:对世界的认识源于观测或实验的信息(或者数据),总结信息时会形成模型(亦称假说或者理论),模型会指导进一步的探索,直到遇到这些模型无法解释的现象,这就导致对这些模型的更新和替代。这就是科学的方法,只有用科学的方法进行的探索才能成为科学。科学的理论完全依赖于实际,统计方法则完全依赖于来自实际原创 2014-10-18 12:56:38 · 1419 阅读 · 0 评论 -
rJava安装及Java调取R注意事项
原文地址:http://blog.youkuaiyun.com/howardge/article/details/388538671 语言简介R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教育,银行,电商,互联网….都在使用R语言。转载 2014-12-17 17:09:39 · 2130 阅读 · 0 评论 -
如何使用ShinyApps部署Shiny应用?
原文地址:http://www.xinglongjian.com/index.php/2014/06/06/shinyapps/接触R有几个月了,开始接触时,是在命令行下通过命令运行,能够完成强大的统计和绘图功能,后来就想R写的程序和绘制的图能否通过网页的形式运行呢,这样就可以放到网上与同行交流了,在一次数盟聚会时,听到R大牛讲到了shiny,心里非常激动,这正是我想要的东东。结果一口转载 2015-01-05 21:35:44 · 6922 阅读 · 1 评论 -
R在银行财务数据分析中的应用
原文地址:http://supstat.com.cn/blog/2015/01/07/use-r-in-banking-industry/研究方法搜集银行业上市公司的财务数据分析股票价格的财务影响因素,观测流动比率、净资产负债比率、资产固定资产比率、每股收益、净利润、增长率、股价和公布时间等数据。首先描述性分析对银行业上市公司的财务数据进行基础性描述,以便对整个行业转载 2015-01-27 13:43:14 · 5284 阅读 · 2 评论 -
台北公共自行车预测
原文地址:http://supstat.com.cn/blog/2015/01/07/taipei-city-bike-prediction/这篇文章是2014年10月21日~29日在台北参加“国际Open Data应用实务班”的学员的报告。项目演示程序运行在https://yaoch29.shinyapps.io/taipei-city-bike-predic转载 2015-01-27 13:45:57 · 1479 阅读 · 1 评论 -
【转】R语言处理缺失数据的高级方法
转载自:http://blog.youkuaiyun.com/lilanfeng1991/article/details/36467891主要用到VIM和mice包[plain] view plaincopyinstall.packages(c("VIM","mice")) 1.处理缺失值的步骤转载 2014-12-04 11:19:12 · 1423 阅读 · 0 评论 -
shinyApps.io 的使用
地址:http://mooc.guokr.com/note/12791/首先,登录到 www.shinyApps.io/coussera创建用户,大家已经有了github的账户了,就可以直接使用github来注册。之后会提示你安装相关的包 shinyapps第一步,install.package('devtools'),并重启session。建议除此之外转载 2014-12-18 21:55:41 · 3994 阅读 · 0 评论 -
Ubuntu 10.10下简单安装配置R环境
向 /etc/apt/sources.list 中加入:deb http://ftp.ctex.org/mirrors/CRAN/bin/linux/Ubuntu maverick/Secure aptThe Ubuntu archives on CRAN are signed with the key of "Michael Rutter " with key ID E0转载 2014-12-19 19:48:50 · 1153 阅读 · 0 评论 -
R语言基本统计分析方法(包和函数)
转载自:http://blog.youkuaiyun.com/s04023083/article/details/40344273摘要:目前经典的统计学分析方法主要有回归分析,Logistic回归,决策树,支持向量机,聚类分析,关联分析,主成分分析,对应分析,因子分析等,那么对于这些经典的分析方法在R中的使用主要有那些程序包及函数呢?1、线性模型~回归分析:【包】:st转载 2015-01-28 12:33:46 · 6917 阅读 · 0 评论 -
R语言统计分析篇
转载自:http://blog.youkuaiyun.com/lilanfeng1991/article/details/282667511.描述性统计分析(1)方法云集通过summary,sapply()计算描述性统计量[plain] view plaincopyvarsvars head(mt转载 2015-01-28 12:34:26 · 2593 阅读 · 0 评论 -
【转】R语言与机器学习中的回归方法学习笔记
原文地址:http://blog.youkuaiyun.com/yujunbeta/article/details/12648717机器学习中的一些方法如决策树,随机森林,SVM,神经网络由于对数据没有分布的假定等普通线性回归模型的一些约束,预测效果也比较不错,交叉验证结果也能被接受。下面以R中lars包包含数据集diabetes为例说明机器学习中的回归方法。一、数据集及交叉验证办法描述转载 2014-12-05 09:16:42 · 1387 阅读 · 0 评论 -
【转】 R语言与机器学习学习笔记(分类算法)(1)K-近邻算法
原文地址:http://blog.youkuaiyun.com/yujunbeta/article/details/14648343前言 最近在学习数据挖掘,对数据挖掘中的算法比较感兴趣,打算整理分享一下学习情况,顺便利用R来实现一下数据挖掘算法。 数据挖掘里我打算整理的内容有:分类,聚类分析,关联分析,异常检测四大部分。其中分类算法主要介绍:K-近邻算法,决策树算转载 2014-12-05 09:19:36 · 1044 阅读 · 0 评论 -
【转】R语言与机器学习学习笔记(分类算法)(2)决策树算法
原文地址:http://blog.youkuaiyun.com/yujunbeta/article/details/14986219算法二:决策树算法决策树定义 首先,我们来谈谈什么是决策树。我们还是以鸢尾花为例子来说明这个问题。 观察上图,我们判决鸢尾花的思考过程可以这么来描述:花瓣的长度小于2.4cm的是setosa(图中绿色的转载 2014-12-05 09:22:14 · 1668 阅读 · 0 评论 -
【转】R语言与机器学习学习笔记(分类算法)(3)朴素贝叶斯算法
原文地址:http://blog.youkuaiyun.com/yujunbeta/article/details/16355857算法三:朴素贝叶斯算法 前两个算法都被要求做出一个艰难的决定,给出数据所属分类的明确答案,但往往因为分类特征统计不足,或者分类特征选择有误导致了错误的分类结果,哪怕是训练集也有可能出现不能正确分类的情形。这时,前两种方法都如同现实生活一样是转载 2014-12-05 09:23:46 · 1165 阅读 · 0 评论 -
【转】R语言与机器学习学习笔记(分类算法)(4)支持向量机
原文地址:http://blog.youkuaiyun.com/yujunbeta/article/details/17023287算法四:支持向量机 说到支持向量机,必须要提到july大神的《支持向量机通俗导论》,个人感觉再怎么写也不可能写得比他更好的了。这也正如青莲居士见到崔颢的黄鹤楼后也只能叹“此处有景道不得”。不过我还是打算写写SVM的基本想法与libSVM中R的接口。转载 2014-12-05 09:26:00 · 1198 阅读 · 0 评论 -
【转】R语言与机器学习学习笔记(分类算法)(5)神经网络
原文地址:http://blog.youkuaiyun.com/yujunbeta/article/details/17201103算法五:神经网络(优化算法) 人工神经网络(ANN),简称神经网络,是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。现代神转载 2014-12-05 09:28:46 · 1263 阅读 · 0 评论 -
R语言与机器学习学习笔记(分类算法)(6)logistic回归
原文地址:http://blog.youkuaiyun.com/yujunbeta/article/details/17926443算法六:logistic回归 由于我们在前面已经讨论过了神经网络的分类问题(参见《R语言与机器学习学习笔记(分类算法)(5)》),如今再从最优化的角度来讨论logistic回归就显得有些不合适了。Logistic回归问题的最优化问题可以表转载 2014-12-05 09:32:03 · 2417 阅读 · 0 评论 -
【转】R语言与分类算法的绩效评估
原文地址:http://blog.youkuaiyun.com/yujunbeta/article/details/18138957 关于分类算法我们之前也讨论过了KNN、决策树、naivebayes、SVM、ANN、logistic回归。关于这么多的分类算法,我们自然需要考虑谁的表现更加的优秀。 既然要对分类算法进行评价,那么我们自然得有评价依据。到目前转载 2014-12-05 09:33:42 · 1356 阅读 · 0 评论 -
Ubuntu Server安装R和Rstudio
转自:http://www.jianshu.com/p/2c739a25d20bR是一个在科研领域很常用的工具,经常用R的年轻人或者经常上统计之都的肯定知道Rstudio的存在。然而对于R和Rstudio来讲,还是有很多问题存在的,今天我就结合我上一次在Ubuntu server上面安装R和Rstudio的经历来讲讲有些什么问题(很难Google到!)。首先是要安装R:#添加源转载 2014-12-18 16:36:51 · 1109 阅读 · 0 评论 -
【读书笔记】数据出现多重共线性情况:岭回归,lasso回归,适应性lasso回归,偏最小二乘回归
# 2.2.3 数据出现多重共线性情况:岭回归,lasso回归,适应性lasso回归,偏最小二乘回归# 有一些关于多重共线性的度量,其中之一是容忍度(tolerance)或(等价的)方差膨胀因子(variance inflation factor, VIF),而另一个是条件数(condition number),# 容忍度太小(按照一些文献,比如小于0.2或0.1)或者VIF太大(比如大于原创 2014-12-05 10:47:36 · 10838 阅读 · 0 评论 -
用R抓取拉手网深圳地区的美食数据--增加商店地址信息
自从上次在中大会场分享完RCurl爬虫和Shiny包的相关演讲后,有很多同学对这部分的内容很敢兴趣,昨晚有个同学问我演讲中提到的爬团购网数据的例子,按照代码尝试自己去抓商家地址和销售数量时却出错了。今天中午抽空重写了上次演讲内容的代码,增加了商家地址这部分信息,并力求代码的精简。原文章:利用RCurl包完成自己感兴趣的团购信息【批量】抓取首先拿深圳拉手网第一页做研究:http://shen原创 2014-12-05 14:05:59 · 4303 阅读 · 2 评论 -
R语言中的机器学习包
Machine Learning & Statistical Learning (机器学习 & 统计学习) 网址:http://cran.r-project.org/web/views/MachineLearning.html维护人员:Torsten Hothorn 版本:2008-02-18 18:19:21 翻译:R-fox, 2008-03-18 机器学习是计算机科学转载 2014-12-21 20:17:41 · 987 阅读 · 0 评论 -
ubuntu安装GTK+的三种方法
原文地址:http://blog.sina.com.cn/s/blog_5e756dfc01016zkd.html1 安装命令:sudo apt-get install gnome-core-develsudo apt-get install libglib2.0-doc libgtk2.0-docsudo apt-get install devhelpsudo apt转载 2014-12-23 09:07:30 · 825 阅读 · 0 评论 -
R语言实现数据抽样&创建训练集和测试集
原文地址:http://blog.youkuaiyun.com/helen1313/article/details/38017131 主要参考《数据挖掘:R语言实战》(黄文,王正林编著)在收集数据过程中,绝大多数情况下,并不采取普查的方式获取总体中所有样本的数据信息,而是以各类抽样方法抽取其中若干代表性样本来进行数据获取和分析。在获得待分析数据集后,需要再次通过抽样技术选取出训练集和测试集转载 2015-01-13 13:45:31 · 13224 阅读 · 0 评论