
R
张博208
知识搬运工
展开
-
调和曲线图和轮廓图的比较
调和曲线图用于聚类判断, 比较方便多元数据的可视化方法很多,譬如散点图、星图、雷达图、脸谱图、协同图等,大致可分为以下几类:1.基于点(如二维、三维散点图);2.基于线(如轮廓图、调和曲线图);3.基于平面图形(如星图、雷达图、蛛网图);4.基于三维曲面(如三维曲面图)。其思想是将高维数据映射到低维空间(三维以下)内,尽量使信息损失最少,同时又能利于肉眼辨识。调和曲线图和轮廓图(即平行转载 2017-03-27 18:47:30 · 13731 阅读 · 0 评论 -
R数据分析实例:稳健回归
按语:当数据含有离群点(Outliar)或者强影响点(influential observation)时,稳健回归(Robust Regression)会比普通最小二乘法(OLS)的表现要更优异。稳健回归也可以用来检测数据中的强影响点。提示: 本文旨在介绍与稳健回归相关的R命令,因此,并未全面覆盖稳健回归的相关知识,也不涉及数据清洗、数据检测、模型假设和模型诊断等内容。文档内容基于R 2.转载 2017-05-15 11:59:15 · 10586 阅读 · 0 评论 -
多重共线性的解决方法之——岭回归与LASSO
标签:???多元线性回归模型的最小二乘估计结果为如果存在较强的共线性,即 中各列向量之间存在较强的相关性,会导致的从而引起对角线上的 值很大并且不一样的样本也会导致参数估计值变化非常大。即参数估计量的方差也增大,对参数的估计会不准确。因此,是否可以删除掉一些相关性较强的变量呢?如果p个变量之间具有较强的相关转载 2017-05-19 12:37:30 · 9164 阅读 · 0 评论 -
PLA算法详解及实现(R语言)
博主发现之前写的博客都是偏程序方面,而较少涉及数学或算法方面的东西,其实无论什么软件工具,最终都是为了更好地给理论铺路搭桥,所以我觉得不应该就某个程序贴个博客,而是在实际算法研究中,将理论描述清晰,再通过工具实现,两个结合。 废话不多说,最近上台湾大学的ML课程,说到PLA(perception learning algorithm)算法,涉及到ML的一个入门算法,我花了一些时间转载 2017-06-06 09:29:09 · 2000 阅读 · 0 评论 -
阿里天池大赛实战记录之菜鸟-需求预测与分仓规划
概述新赛季,天池终于迎来了我本专业的命题:菜鸟物流规划和需求预测。接下来的比赛中,本文会陆续记录比赛的详细过程,但是不能保证最后的结果优劣,希望对大家有一些启发,文章仅供参考,请勿模仿。什么是天池大赛下面是官方介绍天池平台基于阿里云的海量数据离线处理服务ODPS,向学术界提供科研数据和云计算资源,旨在打造“数据众智、众创”第一平台。简单来说,天池就是类似转载 2017-06-01 19:07:54 · 3527 阅读 · 3 评论 -
R语言爬虫之——RCurl
RCurl作者Duncan Temple Lang 现任加州大学 U.C. Davis分校副教授 致力于借助统计整合进行信息技术的探索RCurl的概述The RCurl package is an R-interface to the libcurl library that provides HTTP facilities. This allows us to转载 2017-06-04 09:39:20 · 2681 阅读 · 0 评论 -
从重采样到数据合成:如何处理机器学习中的不平衡分类问题?
如果你研究过一点机器学习和数据科学,你肯定遇到过不平衡的类分布(imbalanced class distribution)。这种情况是指:属于某一类别的观测样本的数量显著少于其它类别。 这个问题在异常检测是至关重要的的场景中很明显,例如电力盗窃、银行的欺诈交易、罕见疾病识别等。在这种情况下,利用传统机器学习算法开发出的预测模型可能会存在偏差和不准确。 发生这种情况的原因是机器转载 2017-06-09 17:44:40 · 1186 阅读 · 0 评论 -
特征工程(Feature Enginnering)学习记要
http://cowlet.org/2013/10/14/understanding-data-science-designing-useful-features-with-r.html 最近学习特征工程(Feature Enginnering)的相关技术,主要包含两块:特征选取(Feature Selection)和特征抓取(Feature Extraction)。这里记录一些要点,作为转载 2017-06-12 13:01:24 · 655 阅读 · 0 评论 -
特征工程 vs. 特征提取:比赛开始!
“特征工程”这个华丽的术语,它以尽可能容易地使模型达到良好性能的方式,来确保你的预测因子被编码到模型中。例如,如果你有一个日期字段作为一个预测因子,并且它在周末与平日的响应上有着很大的不同,那么以这种方式编码日期,它更容易取得好的效果。但是,这取决于许多方面。首先,它是依赖模型的。例如,如果类边界是一个对角线,那么树可能会在分类数据集上遇到麻烦,因为分类边界使用的是数据的正交分解(转载 2017-06-08 10:13:10 · 438 阅读 · 0 评论 -
在R语言中进行局部多项式回归拟合(LOESS)
局部多项式回归拟合是对两维散点图进行平滑的常用方法,它结合了传统线性回归的简洁性和非线性回归的灵活性。当要估计某个响应变量值时,先从其预测变量附近取一个数据子集,然后对该子集进行线性回归或二次回归,回归时采用加权最小二乘法,即越靠近估计点的值其权重越大,最后利用得到的局部回归模型来估计响应变量的值。用这种方法进行逐点运算得到整条拟合曲线。 在R语言中进行局部多项式回归拟合是利用loess函转载 2017-05-15 11:49:31 · 22669 阅读 · 2 评论 -
【译文】R语言不平衡数据分类指南
在对不平衡的分类数据集进行建模时,机器学习算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性。那么,这种结果是为何发生的呢?到底是什么因素影响了这些算法的表现?在不平衡的数据中,任一算法都没法从样本量少的类中获取足够的信息来进行精确预测。因此,机器学习算法常常被要求应用在平衡数据集上。那我们该如何处理不平衡数据集?本文会介绍一些相关方法,它们并不复杂只是技巧性比较转载 2017-05-22 11:08:20 · 3651 阅读 · 0 评论 -
R语言缺失值处理
数据缺失有多种原因,而大部分统计方法都假定处理的是完整矩阵、向量和数据框。缺失数据的分类:完全随机缺失:若某变量的缺失数据与其他任何观测或未观测变量都不相关,则数据为完全随机缺失(MCAR)。随机缺失:若某变量上的缺失数据与其他观测变量相关,与它自己的未观测值不相关,则数据为随机缺失(MAR)。非随机缺失:若缺失数据不属于MCAR或MAR,则数据为非随机缺失(NMA转载 2017-05-11 16:25:11 · 41759 阅读 · 2 评论 -
R COOKBOOK 学习笔记
help.start() args("lm") #快速获得函数的参数 example("lm") help.search("lm") help.search("plot",package="party") help(package="party") vignette(package="party") # 查看附加文档列表 RSiteSearch("tree") #R网原创 2017-03-14 10:32:33 · 1082 阅读 · 0 评论 -
R 语言编程艺术笔记
1 quick begineersource("z.R")pdf("xh.pdf")hist(rnorm(100))dev.off()$R CMD BATCH z.R #shell NO windowdata()oddcountkfor (n in x) { if(n%%2==1) k}return(k) ## 如原创 2017-01-31 17:22:33 · 1798 阅读 · 0 评论 -
R 语言与统计分析,学习笔记
data.entry(mtcar) # 编辑edit(mtcar) # 编辑fix(mtcar) # 列出结构attach(mtcar)detach(mtcar)table(mtcar) barplot(table(Cry))mean(mtcars$mpg,trim=0.1) # 截外平均mean(mtcars$mpg) # 平均tapply(mtcars$原创 2016-12-17 18:15:10 · 3465 阅读 · 0 评论 -
R语言-数据整形之plyr包 R语言中plyr包
R语言中plyr包前言 apply族函数是R语言中很有特色的一类函数,包括了apply、sapply、lapply、tapply、aggregate等等。这一类函数本质上是将数据进行分割、计算和整合。它们在数据分析的各个阶段都有很好的用处。例如在数据准备阶段,我们可以按某个标准将数据分组,然后获得各组的统计描述。或是在建模阶段,为不同组的数据建立模型并比较建模结果。apply族函转载 2017-05-11 14:55:31 · 10379 阅读 · 0 评论 -
必学包之dplyr包
R包dplyr可用于处理R内部或者外部的结构化数据,相较于plyr包,dplyr专注接受dataframe对象, 大幅提高了速度,并且提供了更稳健的数据库接口。同时,dplyr包可用于操作Spark的dataframe。本文只是基础的dplyr包学习笔记,所以并不会讨论一些高级应用,或者与data.table包的性能比较。1. 数据集类型转换 tbl_df()可用于将过长过转载 2017-05-11 15:13:43 · 1069 阅读 · 0 评论 -
R语言扩展包dplyr笔记
引言2014年刚到, 就在 Feedly 订阅里看到 RStudio Blog 介绍 dplyr 包已发布 (Introducing dplyr), 此包将原本 plyr 包中的 ddply() 等函数进一步分离强化, 专注接受dataframe对象, 大幅提高了速度, 并且提供了更稳健的与其它数据库对象间的接口. 既然是 Hadley Wickham 的新作, 并自称 a转载 2017-05-11 15:17:29 · 708 阅读 · 0 评论 -
R语言plyr包学**
今天介绍plyr包几个简单的函数:arrange, mutate,summarise, join, match_df, rename, round_any, count. 这几个函数在plyr包精华ddply系列函数中有不同程度的应用。arrange语法:arrange(data.frame,colnames|desc(colnames)))用于对数据框的一列或几列排序转载 2017-05-11 15:20:19 · 2703 阅读 · 0 评论 -
蒙特卡洛采样之拒绝采样(Reject Sampling)
引子蒙特卡洛(Monte Carlo)方法是二十世纪四十年代中期由于科学技术的发展和电子计算机的发明,而被提出的一种以概率统计理论为基础的数值计算方法。它的核心思想就是使用随机数(或更常见的伪随机数)来解决一些复杂的计算问题。当所求解问题可以转化为某种随机分布的特征数(比如随机事件出现的概率,或者随机变量的期望值等)时,往往就可以考虑使用蒙特卡洛方法。通过随机抽样的方法,以随机事件出现的频率估计其...转载 2018-07-02 15:57:03 · 1487 阅读 · 0 评论