Spark MLlib入门学习和Wordcount实战
机器学习语言主要有python,c++(万金油),scala,而scala主要得益于spark框架。1. Spark MLlib数据格式本地向量本地向量是存储在本地结点上的,基本数据类型是Vector,有俩个子集,分别是密集和稀疏集,我们一般使用Vectors工厂类生成:Vectors.dense(1.0,2.0,3.0),Vector.sparse(3,(0,1),(1,2),(2,3)),(稀疏向量了解即可)标签数据监督学习是(x,y)数据形式,y是标签,x是特征向量LabeledPo
原创
2020-05-10 22:04:36 ·
217 阅读 ·
0 评论