
算法
文章平均质量分 70
zxy_clover
这个作者很懒,什么都没留下…
展开
-
文章标题
今天弄了一个商家分成,下面说说我的理解~~~ 商家分成可以借用用户分层最经典模型——RFM模型,即收益(M)、最近一次收益时间(R)、收益频数(F)。可以根据自己模型可以再加上其他指标,这样模型就完整了。 说白了商家分层就是要找到一个金字塔和有可能成为金塔的潜在可能。一家公司的收益主要是金字塔20%的商家占80%收益,可想而知这其中的利害关系。 还有就是根据这个金字塔找到相对应商家类型,然后进原创 2017-07-16 00:01:12 · 228 阅读 · 0 评论 -
r语言 集成学习
集成学习通过构造并结合多个学习器来完成学习任务原理: 先产生一组“个体学习器”,在用某种策略将它们结合起来boosting:先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本进行调整,使得先前基学习器做错的样本在后续受到更多关注,然后基于调整后的样本分布训练下一个基学习器;如此重复下去,直至基学习器数目达到事先指定的值T,最终将这T个学习期进行加权结合。bagging:是投票式算法,...原创 2018-03-26 22:07:08 · 1725 阅读 · 0 评论 -
R语言 支持向量机
支持向量机可以想象成一个平面,改平面定义了个数据点之间的界限,而这些数据点代表它们的特征绘制多维空间中的样本。支持向量机的目标是创建一个称为超平面的平面边界,它使得任何一个的数据划分都是相当均匀的。支持向量机几乎可以适用于所有的学习任务,包括分类(svm)、数值预测、回归(svr)。R实现及参数说明1)kernlab包 函数ksvm()通过。Call接口,使用bsvm和libsvm库中原创 2018-03-26 19:52:17 · 4424 阅读 · 0 评论 -
R语言 BP神经网络
神经网络是由具有适应性的简单单元组成的广泛进行互联的网络,它的组织能够模拟生物神经系统对真实世界物体所做的交互反应。人工神经网络对一组输入信号和一组输出信号之间的关系建模,使用的模型来源于人类大脑对来自感觉输入的刺激是如何反应理解的。就像大脑使用一个称为神经元的相互连接的细胞网络来创建一个巨大的并行处理器,人工神经网络使用人工神经元或者节点的网络来解决学习问题。人工神经网络可以用在数据的分类、原创 2018-03-24 21:15:53 · 15126 阅读 · 0 评论 -
R语言 k近邻法
k近邻法是机器学习方法最简单的方法之一基本思路:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于一个类别,则该样本也属于这个样本。在k近邻法算法中,所选择的邻居都是已经正确分类来决定待分样本所属的类别。k临近算法主要依靠周围有限的邻近样本,属于样本中概率大的样本。r语言中k近邻法算法的实现1、class包 knn( )2、kknn包中的k原创 2018-03-12 22:28:10 · 3814 阅读 · 0 评论 -
R语言 模型评估与选择
1、 经验误差如果在m个样本中有a个样本分类错误,则错误率为E=a/m,对应地精确度为1-a/m。实际预测输出与样本的真实值之间的差异成为“误差”。学习器在训练集在的误差成为“经验误差”。在新样本上的误差称为“泛化误差”。显然,泛化误差小的学习器是我们希望得到的。2、 评估方法测试集是用来测试学习器对新样本的判别能力,然后以测试集上的“测试误差”作为泛化误差的近似。2.1 训练样本和测试样本划分1...原创 2018-03-13 23:00:53 · 6426 阅读 · 0 评论 -
R语言 决策树及其实现
一颗决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集。从根结点到叶结点的路径对应于了一个判定测试序列。目的:为了产生一颗泛化能力强,即处理未见示例能力强的据决策树。特别注意几点:1)通常所说的属性是离散,若属性是连续,则要把属性离散化,最简单的是是采用二分法(找划...原创 2018-03-22 20:59:37 · 10943 阅读 · 10 评论 -
R语言 密度聚类
动态聚类往往聚出来的类有点圆形或者椭圆形。基于密度扫描的算法能够解决这个问题。思路就是定一个距离半径,定最少有多少个点,然后把可以到达的点都连起来,判定为同类。在r中的实现 library(fpc) newiris <- iris[, 1:4] ds <- dbscan(newiris, eps = 0.5, MinPts = 5, scale = T,原创 2018-03-20 21:59:56 · 825 阅读 · 0 评论 -
R语言 层次聚类(系统聚类)
层次聚类试图在不同层次对数据集进行划分 library(NbClust) data(nutrient, package = 'flexclust') row.names(nutrient) <- tolower(row.names(nutrient)) nutrient.scale <- scale(nutrient) d <- dist(nutrient.scale)原创 2018-03-20 21:25:37 · 4982 阅读 · 0 评论 -
R语言 kmeans聚类
原理: 将数据集中的样本划分为若干个通常是不想交的子集,每个子集称为一个“簇”。通过这样的划分,每个簇对英语一些潜在的概念(类别)1. 基本问题1)性能度量对聚类结果评价好坏:簇内相似度高,簇间相似度低2)距离计算2. kmeans 聚类1)找最优的K值# cluster.stats函数需要使用fpc库 library(fpc); library(ggplot2) K <- ...原创 2018-03-20 20:26:43 · 2731 阅读 · 0 评论 -
R语言 朴素贝叶斯
朴素贝叶斯是一种十分简单的分类算法,是一种基于概率的分类器,它源于贝叶斯理论,假设样本属性之间相互独立。思路:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,那个最大,就认为此待分类项属于那个类别。三个阶段:1)准备阶段主要工作是根据具体情况确定特征属性,并适当划分每个特征属性,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数原创 2018-03-26 23:19:01 · 2471 阅读 · 0 评论