
ML-常见算法
sparkmllib常用算法(scala)
麻辣香蕉
一点一哼唱,一瞥到南阳,南阳两棵树,章在石头上
展开
-
梳理各算法基础应用及场景
knn: import numpy as np from sklearn.neighbors import KNeighborsClassifier X = np.array([[1, 1], [1, 1.5], [2, 2], [4, 3], [4, 4]]) y = np.array(['A', 'A', 'A', 'B', 'B']) knn = KNeighborsClassifier(n_neighbors=3) # 训练模型 knn.f...原创 2020-12-15 15:39:55 · 309 阅读 · 0 评论 -
sparkmllib scala GBDT Demo
定义 GBDT(Gradient Boosting Decision Tree)是一种迭代的决策树算法,由多棵决策树组成,所有树的结论累加起来作为最终答案。GBDT是boosting算法的一种,按照boosting的思想,在GBDT算法的每一步,用一棵决策树去拟合当前学习器的残差,获得一个新的弱学习器。将这每一步的决策树组合起来,就得到了一个强学习器。 GBDT 无论用于分类还是回归一直都是使用的CART 回归树。不会因为我们所选择的任务是分类任务就选用分类树,这里面的核心是因为gbd...原创 2020-09-08 14:55:25 · 221 阅读 · 0 评论 -
sparkmllib scala NaiveBayes Demo
定义贝叶斯方法贝叶斯方法是以贝叶斯原理为基础,使用概率统计的知识对样本数据集进行分类。由于其有着坚实的数学基础,贝叶斯分类算法的误判率是很低的。贝叶斯方法的特点是结合先验概率和后验概率,即避免了只使用先验概率的主观偏见,也避免了单独使用样本信息的过拟合现象。贝叶斯分类算法在数据集较大的情况下表现出较高的准确率,同时算法本身也比较简单。朴素贝叶斯算法朴素贝叶斯算法(Naive Bayesian algorithm) 是应用最为广泛的分类算法之一。朴素贝叶斯方法是在贝叶斯算法的基础上进行.原创 2020-08-18 17:12:36 · 183 阅读 · 0 评论 -
Sparkmllib scala KMEANS demo
定义:聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程,聚类就是一种发现这种内在结构的技术,聚类技术经常被称为无监督学习。k均值聚类是最著名的划分聚类算法,由于简洁和效率使得他成为所有聚类算法中最广泛使用的。给定一个数据点集合和需要的聚类数目k,k由用户指定,k均值算法根据某个距离函数反复把数据分入k个聚类中。数据源准备:0.0 0.0 0.00.1 0.1 0.10.2 0.2 0.29.0 9.0 9.09.1 9.1 9.19.2 9.2 9.20...原创 2020-08-17 10:41:46 · 364 阅读 · 0 评论 -
Sparkmllib scala svm demo
简介:支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)。SVM使用铰链损失函数(hinge loss)计算经验风险(empirical risk)并在求解系统中加入了正则化项以优化结构风险(structural risk),.原创 2020-07-28 10:55:42 · 459 阅读 · 0 评论 -
Sparkmllib scala逻辑回归
logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重,从而可以大.原创 2020-06-28 14:17:33 · 727 阅读 · 0 评论 -
Sparkmllib scala线性回归
在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。(这反过来又应当由多个相关的因变量预测的多元线性回归区别,而不是一个单一的标量变量。)在线性回归中,数据使用线性预测函数来建模,并且未知的模型参数也是通过数据来估计。这些模型被叫做线性模型。最常用的线性回归建模是给定X值的y的条件均.原创 2020-06-19 09:58:15 · 1339 阅读 · 0 评论