
R
文章平均质量分 81
mousever
这个作者很懒,什么都没留下…
展开
-
使用R语言进行异常检测
本文结合R语言,展示了异常检测的案例,主要内容如下: (1)单变量的异常检测 (2)使用LOF(local outlier factor,局部异常因子)进行异常检测 (3)通过聚类进行异常检测 (4)对时间序列进行异常检测 单变量异常检测 本部分展示了一个单变量异常检测的例子,并且演示了如何将这种方法应用在多元数据上。在该例中,单变量异常检测通过boxplot.stats(转载 2015-07-26 18:47:00 · 8929 阅读 · 1 评论 -
数据挖掘之lsh minhash simhash
在项目中碰到这样的问题:互联网用户每天会访问很多的网页,假设两个用户访问过相同的网页,说明两个用户相似,相同的网页越多,用户相似度越高,这就是典型的CF中的user-based推荐算法。算法的原理很简单,只要两两计算用户的相似性,针对每个用户,获取最相似的K个用户即可。但是在实际的工程上,假定用户规模在亿的规模N,计算复杂度为N*N,即使是分布式,也是非常可怕的复杂转载 2016-09-09 22:39:50 · 1070 阅读 · 0 评论 -
R语言主成分和因子分析篇
主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分。探索性因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法,通过寻找一组更小 的、潜在的或隐藏的结构来解释已观测到的、变量间的关系。1.R中的主成分和因子分析R的基础安装包中提供了PCA和EFA的函数,分别为princomp()和factanal()p转载 2016-05-29 22:58:39 · 7579 阅读 · 1 评论 -
R语言预处理之异常值问题
>>>>一、问题什么是异常值?如何检测异常值?请伙伴们思考或者留言讨论。>>>>二、解决方法1. 单变量异常值检测2. 使用局部异常因子进行异常值检测3. 通过聚类的方法检验异常值4. 检验时间序列数据里面的异常值>>>>三、R代码实现1、单变量异常值检测转载 2016-05-29 22:45:18 · 6527 阅读 · 0 评论 -
用R语言做正态分布检验
摘自:吴喜之:《非参数统计》(第二版),中国统计出版社,2006年10月:P164-1651、ks.test() 例如零假设为N(15,0.2),则ks.test(x,"pnorm",15,0.2)。如果不是正态分布,还可以选"pexp", "pgamma"等。2、shapiro.test() 可以进行关于正态分布的Shapiro-Wilk检验。3、nort转载 2016-05-15 21:11:52 · 16074 阅读 · 1 评论 -
Symbolic Aggregate approXimation.
IntroductionIn short, Symbolic Aggregate approXimation (SAX) algorithm application to the input time series transforms its into a strings.The algoithm was proposed by Lin et al.) and extends t转载 2016-03-04 14:04:59 · 2289 阅读 · 1 评论 -
用R建立岭回归和lasso回归
1 分别使用岭回归和Lasso解决薛毅书第279页例6.10的回归问题例6.10的问题如下:输入例题中的数据,生成数据集,并做简单线性回归,查看效果cement 29, 56, 31, 52, 55, 71, 31, 54, 47, 40, 66, 68), X3 = c(6, 15, 8, 8, 6, 9, 17, 22, 18,转载 2016-01-13 21:55:30 · 3713 阅读 · 2 评论 -
lasso算法及其实现
缘起这篇博客的想法来源于知乎的一个关于多元线性回归的变量选择问题。从该问题的提问描述,以及回答中看出,很多人在做变量选择时,眼光依然局限于R 2 R2或者Ajusted−R 2 Ajusted−R2,以及P−Value P−Value之中。记得计量课上,韩老师在讲到Ajusted−R 2 Ajusted−R2时,说他们做模型选择,其实更倾向于采用AIC和BIC等标准来做判转载 2016-01-13 21:38:39 · 56716 阅读 · 6 评论 -
iGraph库中Community Detection方法比较
复杂网络的使用中,有这么几个库:表格来自:http://bbs.sciencenet.cn/blog-404069-297233.html库名称原始开发语言可用某语言调用BGLC++C++/ Python(通过boost-python)QuickGraph C#支持.NET平台的任何语言(Pytho转载 2015-12-05 19:39:07 · 11561 阅读 · 0 评论 -
人工神经网络之乳腺癌识别
人工神经网络是一种类似于大脑神经突触连接的结构进行信息处理的数学模型,由大量的输入层节点、隐藏层节点和输出层节点连接构成。其构造类似于下图:上图中明确显示了输入层、隐藏层和输出层,红框表示节点与节点之间连接函数(或激活函数),黄框表示上一个节点到下一个节点变换权重。所以,有关神经网络算法最核心的三个问题就是:选择激活函数、隐藏层数目和节点的确定以及权重的设置。一、选择激转载 2015-12-19 19:17:51 · 4151 阅读 · 0 评论 -
R语言 | 关联规则
1.概念1.1 引论关联规则(AssociationRules)是无监督的机器学习方法,用于知识发现,而非预测。关联规则的学习器(learner)无需事先对训练数据进行打标签,因为无监督学习没有训练这个步骤。缺点是很难对关联规则学习器进行模型评估,一般都可以通过肉眼观测结果是否合理。 关联规则主要用来发现Pattern,最经典的应用是购物篮分析,当然其他类似于购转载 2015-12-11 14:28:27 · 2281 阅读 · 3 评论 -
PageRank与R语言实现
前言Google搜索,早已成为我每天必用的工具,无数次惊叹它搜索结果的准确性。同时,我也在做Google的SEO,推广自己的博客。经过几个月尝试,我的博客PR到2了,外链也有几万个了。总结下来,还是感叹PageRank的神奇!改变世界的算法,PageRank!目录PageRank算法介绍PageRank算法原理PageRank算法的R语言实现1. PageRank算转载 2015-08-02 21:54:29 · 2079 阅读 · 0 评论 -
PageRank与社交网络模型评估
SNS社交网络在近几年流行起来,并呈现出火爆的增长趋势。在仿制国外Facebook、twitter等成功先例的基础上,国内的人人网、新浪微博等一系列社交网络正风生水起。这些社交网站表面上看起来十分普通和其他网站别无二致,但我们可以研究它们背后更深层次的数学原理,从而更有利于推广营销。在后面的分析中,我会分别举例,大家就会明白实际中的应用价值。我们需要考虑的转载 2015-08-02 21:57:29 · 5397 阅读 · 1 评论 -
协同过滤中item-based与user-based选择依据
此文总结的不错。协同过滤是大家熟知的推荐算法。 总的来说协同过滤又可以分为以下两大类:Neighborhood-based:计算相似item 或user后进行推荐Model-based: 直接训练模型预测Rating在Neighborhoold-based算法中,又细分为user-based CF(Collaborative Filtering)和item-based CF转载 2016-09-12 22:22:23 · 1176 阅读 · 0 评论