
R语言
啊啊平
这个作者很懒,什么都没留下…
展开
-
R语言-基于电商平台真实用户-商品行为数据的移动推荐算法模型
推荐模型以阿里移动电商平台的真实用户-商品行为数据为基础训练。数据源:https://tianchi.aliyun.com/datalab/dataSet.html?spm=5176.100073.0.0.c0d66fc1r1QqBy&dataId=649该数据包含了抽样出来的一定量用户在一定时间之内的移动端行为数据,评分数据是这些用户在之后的一天对商品子集的购买数据。任务是使用训...原创 2018-07-30 00:20:20 · 38902 阅读 · 2 评论 -
Hadoop的初步了解
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。(麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。)大数据技术:...原创 2018-08-11 11:44:39 · 34835 阅读 · 0 评论 -
R语言-主成分分析
主成分分析(PCA)用于数据降维,将大量相关变量转化为一组不相关变量。R的基础安装包提供了PCA函数: princomp( )原创 2018-08-07 19:22:13 · 37708 阅读 · 0 评论 -
R语言-层次聚类的初步了解
在层次聚类中,每个初始实例或观测值属于一类,聚类就是每一次把两类聚成一类,直到所有的类聚成单类为止。当需要嵌套聚类和有意义的层次结构时,层次聚类可发挥奇效,(生物科学中这种情况就很常见),缺点是层次聚类中一旦一个观测值被划分到一个类,它就不能再重新分配。层次聚类难以应用到数百甚至数千观测值的大样本中。下面用R语言中的flexclust包中的内置数据集尝试做层次聚类分析:# 用flex...原创 2018-07-31 14:40:57 · 36415 阅读 · 0 评论 -
R语言-学习过程中记录的常用的函数
以下是我在R语言学习过程中遇到问题时常用的函数及使用方法,温故而知新,没事看一看不仅能加深印象,还可以更加灵活地结合基础函数实现灵活的运用。a <- (1:9) #定义a数据集sum (a) #a的总和c (1:9)+c(1:9) #向量相加c (1,2,3,4,5)+c(1,2) #注意该例c (2,4,1,3)>c(6,2) #向量相比,返回布尔值exp ...原创 2018-08-30 13:14:02 · 34721 阅读 · 0 评论 -
R语言-训练随机森林模型
随机森林算法涉及对样本单元和变量进行抽样,从而生成大量决策树。对于每个样本单元,所有决策树依次对其进行分类,所有决策树预测类别中的众数类别即为随机森林所预测的这一样本单元的类别。假设训练集中共有N个样本单元,M个变量,则随机森林算法如下:(1)从训练集中随机有放回地抽取N个样本单元,生成大量决策树;(2)在每一个节点随机抽取m < M个变量,将其作为分割该节点的候选变量。每一...原创 2019-10-23 12:06:52 · 36059 阅读 · 3 评论