
SparkML
文章平均质量分 85
SparkML学习过程中的感悟
北极光。
这个作者很懒,什么都没留下…
展开
-
SparkML(五)
聚类k-means算法k-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据它们的属性分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。k-means算法的基本过程如下所示:任意选择k个初始中心c1,c2,…,ckc{1},c{2},…,c_{k}c1,c2,…,ck 。计算X中的每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;重新计算每个中心对象CiC_{i}Ci的值计算标准测度函数,当满足一原创 2021-02-10 16:11:41 · 241 阅读 · 1 评论 -
SparkML(四)
回归回归问题其实就是求解一堆自变量与因变量之间一种几何关系,这种关系可以是线性的就是线性回归,可以是非线性的就是非线性回归。按照自变量的多少有可以分为一元线性回归,多元线性回归。线性回归线性回归,顾名思义拟合出来的预测函数是一条直线,数学表达如下:h(x)=a0+a1x1+a2x2+…+anxn+J(θ)其中 h(x)为预测函数, ai(i=1,2,…,n)为估计参数,模型训练的目的就是计算出这些参数的值。而线性回归分析的整个过程可以简单描述为如下三个步骤:寻找合适的预测函数,即上文中的h(x原创 2021-02-10 15:41:58 · 715 阅读 · 0 评论 -
SparkML(三)
分类逻辑回归在spark官方文档中,逻辑回归又分为二项式逻辑回归和多项式逻辑回归。逻辑回归本质是线性回归,只是在特征到结果的过程上加上了一层映射。即首先需要把特征进行求和,然后将求和后的结果应用于一个g(z)函数,g(z)可以将值映射到0或者是1上面,这个函数就是Sigmoid函数,默认分类的值是0.5,超过0.5则类别为1,小于0.5类别为0。如下图例子import org.apache.spark.ml.classification.LogisticRegression// Load t原创 2021-02-09 15:52:37 · 475 阅读 · 0 评论 -
SparkML(二)
有监督学习概念:通过已有的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现预测和分类的目的,也就具有了对未知数据进行预测和分类的能力。简单来说,就像有标准答案的练习题,然后再去考试,相比没有答案的练习题然后去考试准确率更高。监督学习中的数据中是提前做好了分类信息的, 它的训练样本中是同时包含有特征和标签信息的,因此根据这些来得到相应的输出。有监督算法常见的有:线性回归算法、BP神经网络算法、决策树、支持向量机、KNN等。分类和回归有监督分为分原创 2021-02-08 15:02:51 · 199 阅读 · 0 评论 -
SparkML(一)
什么是机器学习百度:机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有内容进行知识结构划分来有效提高学习效率。在我看来机器学习就是给你的计算机一套逻辑(建模训练),让他根据这套逻辑去对数据进行处理(测试)。Spark MLSpark MLlib是Spark的机器学习(ML)库。它的目标是使实用的机器学习可扩展且容易数据处理spark ML有2种类型局部向量:dense和sparse。 稠原创 2021-02-08 12:51:57 · 2122 阅读 · 0 评论