
Spark机器学习
文章平均质量分 79
1、关于基于Spark平台进行分布式机器学习实践
2、Spark ML 源码解析
小爷毛毛(卓寿杰)
NLP对话问答、大模型、AIGC。
微信视频号:毛毛AIGC,欢迎关注进一步交流!
展开
-
pyspark做Item2vec
【代码】pyspark做Item2vec。原创 2021-02-14 12:20:22 · 1072 阅读 · 1 评论 -
pyspark做movielens推荐模型特征工程
前面文章讲了如何这篇文章我们来讲讲,如何使用pyspark为推荐模型做特征工程。同样的,我们将使用movielens数据集,我们需要进行Sample Label、Movie Features生成以及User Features的生成、最后再split Train&Test Samples。原创 2021-02-11 18:23:39 · 786 阅读 · 1 评论 -
pyspark 特征工程
曾经在15、16年那会儿使用Spark做机器学习,那时候pyspark并不成熟,做特征工程主要还是写scala。后来进入阿里工作,特征处理基本上使用PAI 可视化特征工程组件+ODPS SQL,复杂的话才会自己写python处理。最近重新学习了下pyspark,笔记下如何使用pyspark做特征工程。我们使用movielens的数据进行,oneHotEncoder、multiHotEncoder和Numerical features的特征处理。原创 2021-02-10 12:22:09 · 2434 阅读 · 2 评论 -
深入理解Spark ML:多项式朴素贝叶斯原理与源码分析
http://blog.youkuaiyun.com/u011239443/article/details/76176743朴素贝叶斯的基本原理与简单的python与scala的实现可以参阅:http://blog.youkuaiyun.com/u011239443/article/details/68061124如果一个给定的类和特征值在训练集中没有一起出现过,那么基于频率的估计下该概率将为0。这将是一个问题。因为与其他概率相乘时将会把其他概率的信息统统去除。所以常常要求要对每个小类样本的概率估计进行修正,以保证不会出现有为0的原创 2017-07-27 12:27:54 · 5012 阅读 · 1 评论 -
【Spark Mllib】决策树,随机森林——预测森林植被类型
决策树有训练分类模型的函数trainClassifier和回归模型的函数trainRegressor,这里我们使用trainClassifier。随机森林可以理解将数据集合分成n个子集,然后在每个子集上建立决策树,最后结果是n棵决策树的平均值。因为一共有7种类别,所以生成的是7*7的矩阵,aij 表示实际类别是i,而被预测类别是j的次数。我们可以将featureSubsetStrategy设置为auto,让算法自己来决定。相当于关于impurity,depth,bins的三层循环。但是,我们可以参阅下。原创 2016-07-08 11:09:33 · 8012 阅读 · 0 评论 -
【Spark Mllib】性能评估 ——MSE/RMSE与MAPK/MAP
推荐模型评估MSE/RMSE均方差(MSE),就是对各个实际存在评分的项,pow(预测评分-实际评分,2)的值进行累加,在除以项数。而均方根差(RMSE)就是MSE开根号。我们先用ratings生成(user,product)RDD,作为model.predict()的参数,从而生成以(user,product)为key,value为预测的rating的RDD。然后,用ratings生成以(user原创 2016-06-30 11:14:04 · 5986 阅读 · 1 评论 -
深入理解Spark ML:基于ALS矩阵分解的协同过滤算法与源码分析
http://blog.youkuaiyun.com/u011239443/article/details/51752904随着互联网的迅猛发展,为了满足人们在繁多的信息中获取自己需要内容的需求,个性化推荐应用而生。协同过滤推荐是其中运用最为成功的技术之一。其中,基于用户的最近邻法根据相似用户的评分来预测当前用户的评分。然而,在用户数量以及用户评分不足的情况下,该方法存在冷启动和数据稀疏的问题。为了解决这两个问题,业界提出了提出了基于项的最近邻法,利用项之间相似性稳定的特点可以离线计算相似性,降低了在线计算量,提高了推原创 2016-06-26 13:40:00 · 31447 阅读 · 6 评论 -
【Spark Mllib】分类模型——各分类模型使用
数据集:线性模型原创 2016-06-16 13:37:30 · 5201 阅读 · 0 评论 -
【Spark Mllib】逻辑回归——垃圾邮件分类器与maven构建独立项目
使用SGD算法逻辑回归的垃圾邮件分类器 1 package com.oreilly.learningsparkexamples.scala 2 3 import org.apache.spark.{SparkConf, SparkContext} 4 import org.apache.spark.mllib.classification.LogisticRegressi原创 2016-06-13 10:05:34 · 4167 阅读 · 0 评论