
硬核实战Spark机器学习库
本专栏内容主要包括如何手把手安装学习SparkMLlib的环境,Spark编程基础和数据操作,SparkMLlib的使用,包括分类、回归、聚类、协同过滤、降维、神经网络等。代码实践部分选择了更通用且灵活的spark.ml,可以更方便的构建ML pipeline。
SwaggyDoggy
这个作者很懒,什么都没留下…
展开
-
大数据进阶必修课!Spark实战神经网络算法
目录11.SparkMLlib神经网络算法11.1 人工神经网络算法11.2 算法源码分析11.3 应用实战11.3.1 数据说明11.3.2 测试函数代码11.3.3 代码详解11.SparkMLlib神经网络算法11.1 人工神经网络算法(1)人工神经网络人工神经网络(Artificial Neural Networks——ANNs)提供了一种普遍而且实用的方法,来从样本中学习值为实数、离散或向量的函数。用反向传播(BackPropagation)这样的算法使用梯度下降来调节网络参数以最佳拟合由原创 2020-05-11 15:44:02 · 2731 阅读 · 6 评论 -
大数据进阶必修课!Spark实战ALS交替最小二乘算法
目录10.SparkMLlib ALS交替最小二乘算法10.1交替最小二乘算法10.2算法源码分析10.3应用实战10.3.1 数据说明10.3.2代码详解10.SparkMLlib ALS交替最小二乘算法10.1交替最小二乘算法ALS全称alternating least squares 交替最小二乘。在推荐算法中,是指基于ALS求解的一种协同推荐算法。ALS算法是统计分析中一种常用的逼近计算的算法,其计算结果能够最大程度逼近真实的结果。以下简单介绍下这种算法,我们还是将重点放在这个算法在协同推荐算原创 2020-05-11 14:59:36 · 951 阅读 · 0 评论 -
大数据进阶必修课!Spark实战协同过滤推荐算法
目录9.SparkMLlib协同过滤推荐算法9.1 协同过滤推荐算法9.2 算法源码分析9.3 应用实战9.3.1 数据说明9.3.2 代码详解9.SparkMLlib协同过滤推荐算法9.1 协同过滤推荐算法协同过滤算法是一种经典的推荐算法,推荐算法的基础是计算两个对象之间的相关度,其有两种实现形式:基于用户的推荐和基于物品的推荐。基于用户的推荐思想是基于用户对某项物品的喜好找到具有相同喜好的相邻用户,然后将相邻用户喜欢的物品推荐给该用户。在这里,将一个用户对所有物品的喜好作为一个向量,计算不同用户原创 2020-05-11 14:27:45 · 1201 阅读 · 1 评论 -
大数据进阶必修课!Spark实战关联规则挖掘算法
目录8.SparkMLlib关联规则挖掘算法8.1关联规则算法8.2算法源码分析8.3应用实战8.3.1 数据说明8.3.2代码详解8.SparkMLlib关联规则挖掘算法8.1关联规则算法研究规则挖掘算法的目的是发下商品交易数据库中不同类型商品之间的潜在联系,找出客户在购买商品时的行为模式。例如客户购买了某个产品,会对客户购买其他产品产生何种影响,通过分析诸如此类的结果,可以应用到实际的商业规划中,比如超市商品货架的分布排放、商品库存的计划以及如何跟客户的购买习惯对客户进行分类从而进行有针对的精准营原创 2020-05-11 13:41:53 · 958 阅读 · 0 评论 -
大数据进阶必修课!Spark实战高斯混合模型算法
目录8.SparkMLlib GMM高斯混合模型算法8.1 GMM高斯混合模型算法8.2 算法源码分析8.3应用实战8.3.1 数据说明8.3.2 代码详解8.SparkMLlib GMM高斯混合模型算法8.1 GMM高斯混合模型算法在MLlib的聚类算法中,高斯混合模型算法也是一种很重要的聚类算法,其基于单高斯模型,而两者的数学基础都是高斯分布。在统计学中,若随机变量XXX服从数学期望为μμμ、方差为σ2\sigma^2σ2的高斯分布,则记为N(μ,σ2)N(μ,\sigma^2)N(μ,σ2)。原创 2020-05-11 12:56:54 · 851 阅读 · 0 评论 -
大数据进阶必修课!Spark实战KMeans聚类算法
目录7.SparkMLlib KMeans聚类算法7.1 KMeans聚类算法7.2 算法源码分析7.3 应用实战7.3.1 数据说明7.3.2 代码详解7.SparkMLlib KMeans聚类算法7.1 KMeans聚类算法KMeans聚类算法属于划分类型的聚类方法,其求解过程是迭代计算,基本思想是在开始时随机选择K个簇的中心,依据最近邻规则,把待分类样本点分给每个簇。按照平均计算的方法再计算每个簇的质心,对簇心的位置进行更新,开始新一轮的迭代,直到结果收敛于簇心的移动距离小于事先给定的阈值。其原创 2020-05-11 12:32:08 · 1135 阅读 · 0 评论 -
大数据进阶必修课!Spark实战逻辑回归算法
目录6.SparkMLlib逻辑回归算法6.1 逻辑回归算法6.2算法源码分析6.3应用实战6.3.1 数据说明6.3.2 代码详解6.SparkMLlib逻辑回归算法6.1 逻辑回归算法逻辑回归——logistic regression,直译为对数几率,又译为逻辑斯蒂回归,逻辑回归名为回归其实是分类算法。其数学模型本质是线性回归,在特征到结果的映射中加了一层函数映射,先对所有的特征线性求和,到这一步的输出y=f(x)=wxy=f(x)=wxy=f(x)=wx(www是权重参数向量,xxx是特征向量)原创 2020-05-11 12:17:58 · 883 阅读 · 0 评论 -
大数据进阶必修课!Spark实战决策树算法
目录5.SparkMLlib决策树算法(2课时)5.1决策树算法5.2 算法源码分析5.3应用实战5.3.1 数据说明5.3.2 代码详解5.SparkMLlib决策树算法(2课时)5.1决策树算法决策树DecisionTree的结构是树型的,由节点和有向边组成。节点由内部节点和叶子节点组成,内部节点表示一个特征的度量,叶子节点表示一个具体的分类,每个分支表示度量的输出结果。决策树算法采用的是自顶向下的递归方法,其基本思想是以信息熵为度量构造一颗熵值减少最快的树,当到达叶子节点出时熵为零,这事就可以判原创 2020-05-11 09:19:22 · 1632 阅读 · 0 评论 -
大数据进阶必修课!Spark实战支持向量机SVM算法
3.2 SparkMLlib 支持向量机SVM算法3.2.1支持向量机算法支持向量机是数据挖掘中一个很经典的算法,因为其推导过程涉及很多数学概念且其核函数的变化,在此将用尽量通俗的语言来描述这一算法,从其功能性出发进行讲解。支持向量机不仅对分类问题有良好的处理效果,对回归问题也有很好的解决方案。SVM分类器可以在样本空间中对属于不同类别的样本进行区分,用来作为区分的分隔面就是分隔超平面。对于一个SVM算法,输入带有标签的训练样本,输出的是一个最好的分隔超平面。如下图所示:这是一个二维平面上属于两个原创 2020-05-09 20:18:04 · 1430 阅读 · 0 评论 -
大数据进阶必修课!Spark实战贝叶斯分类算法
贝叶斯算法作为机器学习算法中非常重要的一个流派,无论在学术研究还是企业应用中都很受欢迎,学习本文不需要较强的概率论基础,在理论讲解的同时,从代码实战角度加强你的理解。原创 2020-05-09 20:02:48 · 791 阅读 · 0 评论 -
大数据进阶必修课!Spark实战线性回归算法
本文作为spark机器学习入门第一课,主要对线性回归算法做出理论解释,分析spark中回归模型的实现和训练方式,并完成代码实战。原创 2020-05-09 18:31:47 · 2025 阅读 · 0 评论 -
大数据新手必看!一文详尽Spark机器学习库的安装与入门
众所周知,大数据组件之多,安装之繁琐,配置之复杂,往往成为阻拦新手入门的一道关卡。本文详尽安装Spark机器学习库的安装过程,并用精简的语言和例子带你快速上手Spark机器学习开发,写出SparkML中的“HelloWorld!“。原创 2020-05-08 11:08:19 · 1059 阅读 · 0 评论