Spark Machine Learning 总览

本文概览了Spark ML库中的主要数据统计与挖掘算法,包括分类与回归算法如SVM、Logistic回归等;聚类算法如k-means、Gaussian mixture等;降维算法如SVD、PCA等;以及特征提取与转换方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Spark的ML(Machine Learning)库提供了主流数据统计/挖掘算法的实现,威廉将在本文中做一个总览,具体的解析将会在之后的文章中来写

分类与回归算法

算法Spark算法类Spark模型类
SVM支持向量机SVMWithSGDSVMModel
Logistic回归LogisticRegressionWithLBFGS;LogisticRegressionWithSGDLogisticRegressionModel
线性回归LinearRegressionWithSGDLinearRegressionModel
实时线性回归StreamingLinearRegressionWithSGDLinearRegressionModel
岭回归RidgeRegressionWithSGDRidgeRegressionModel
Lasso回归LassoWithSGDLassoModel
朴素贝叶斯NaiveBayesNaiveBayesModel
决策树DecisionTreeDecisionTreeModel
随机森林RandomForestRandomForestModel
Gradient-Boosted TreesGradientBoostedTreesGradientBoostedTreesModel
Isotonic regressionIsotonicRegressionIsotonicRegressionModel

协同过滤算法

算法Spark算法类Spark模型类
alternating least squares (ALS)ALSMatrixFactorizationModel

聚类算法

算法Spark算法类Spark模型类
k-meansKMeansKMeansModel
Gaussian mixtureGaussianMixtureGaussianMixtureModel
power iteration clustering (PIC)PowerIterationClusteringPowerIterationClusteringModel
latent Dirichlet allocation (LDA)LDADistributedLDAModel
streaming k-meansStreamingKMeansKMeansModel

降维算法

算法Spark算法类
singular value decomposition (SVD)RowMatrix.computeSVD
principal component analysis (PCA)RowMatrix.computePrincipalComponents

特征提取与转换

算法Spark算法类Spark模型类
TF-IDFHashingTF;IDF
Word2VecWord2VecWord2VecModel
Standard ScalerStandardScalerStandardScalerModel
NormalizerNormalizer

频繁项集的挖掘

算法Spark算法类
FP-growthFPGrowth
association rulesAssociationRules
PrefixSpanPrefixSpan
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值