
spark机器学习
nanoleak coding
这个作者很懒,什么都没留下…
展开
-
Spark ML PipeLine学习笔记
spark.ml包目标是提供统一的高级别的API,这些高级API建立在DataFrame上,DataFrame帮助用户创建和调整实用的机器学习管道。在下面spark.ml子包指导中查看的算法指导部分,包含管道API独有的特征转换器,集合等。 内容表: Main concepts in Pipelines (管道中的主要概念) DataFramePipeline component转载 2017-07-23 14:29:03 · 1684 阅读 · 0 评论 -
spark mlib官方文档学习和翻译笔记(1)
机器学习库Mlib MLib 是一个spark机器学习库。它的目标是使机器学习容易使用和可扩展。从一个高层角度,提供了下面的工具: 机器学习算法:比如分类,回归,聚类和协同过滤 特征处理: 特征抽取,转换,降维和选 择 管道(Pipeline):构建工具,评估,和Pipelines优化 持久化:保存和载入算法,模型,管道 工具集:线性代数,统计,数据处理等等 spark2.0后,sp原创 2017-08-12 11:57:17 · 654 阅读 · 0 评论 -
spark mlib官方文档学习和翻译笔记(2)
基本统计 相关分析和假设检验 计算两列数据的相关性是统计里的通常操作。在spark.ml里,提供了计算多列数据相关性的灵活性。支持的相关系数计算方式有 皮尔逊相关系数和斯皮尔曼相关系数。 Correlation使用向量组成的Dataset计算相关性矩阵。输出是一个包含向量列相关性矩阵的DataFrame import org.apache.spark.ml.linalg.{Matri原创 2017-08-13 13:39:47 · 1302 阅读 · 0 评论