
R
文章平均质量分 71
KEN11
3G门户数据分析师,刚入门的数据分析菜鸟,有三年的J2EE开发经验以及毕业于二流的应用数学学院,做一个数据界的屌丝级分析师。
展开
-
2、推荐引擎以及协同过滤算法的实现
关于推荐引擎以及协同推荐的介绍,推荐使用IBM文档库的文章,这篇文章深入地解释推荐引擎的发展历史以及目前的应用场景,还深入介绍了协同算法的数学原理以及Mahout实现,本文只是在这篇文章的基础上记录自己学习学协同推荐算法的笔记。一、测试数据测试数据使用用户的购买行为记录表,具体数据如下:用户ID商品ID评分11015110原创 2012-09-22 19:41:21 · 1229 阅读 · 0 评论 -
主成分分析
主成分分析(Principal Component Analysis):一种统计方法,它对多变量表示数据点集合寻找尽可能少的正交矢量表征数据信息特征。1、简介在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息原创 2012-09-21 20:25:18 · 3587 阅读 · 0 评论 -
Linux环境下安装R
在Ubuntu中,是用apt-get下载和安装R。需要用sudo命令获得必要的权限:代码 $ sudo apt-get install r-base在Red Hat和Fedora则是用yum:代码 $ sudo yum install R.i386Windows系统还提供了更加方便的图形化包管理器。除了基础包,原创 2012-10-17 21:35:32 · 4754 阅读 · 0 评论 -
R入门25招
第一招:下载和安装R问题:要把R安装到自己的电脑上。解决方案:Windows和OS X用户可以从CRAN(Comprehensive R Archive Network)上下载R。Linux和Unix用户则可以用各自的包管理工具安装R软件包。Windows在浏览器中打开http://www.r-project.org/。点击“CRAN”。然后会看到按国家排序的镜像站原创 2012-10-20 17:30:26 · 8278 阅读 · 1 评论 -
在R中,如何计算Row Number呢?或者说是partition rank呢?
有的同学在处理自己的业务逻辑的时候,需要用到Row Number的方法,那么,什么是Row Number呢? 例如我们有下面的数据,第一列是用户的ID,第二列是用户的购买日期,现在如果我们需要判断用户是否重复购买,并且,每一次的购买,下一次的购买时间间隔是多少呢?原创 2016-07-18 10:40:22 · 2607 阅读 · 0 评论 -
陈老师撕B志玲姐姐的热门微博数据分析
昨晚陈老师不知因何事忽然在微博上骂女神志玲姐姐,引起来网友们的热闹围观,导致前几天风风火火的汪峰的前妻吸毒的事件,顿时落下帷幕,汪峰老师好不容易上了一次头条,就这么被硬生生的扯下来了。原创 2016-07-29 19:20:26 · 1384 阅读 · 0 评论