spark mllib
文章平均质量分 88
Albert_muk
data analyser
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark mllib之Pipelines
管道中的主要概念 DataFrame 管道组件 transformers estimator 管道组件的属性 管道 怎么运行的 细节 参数 储存和装载管道 代码示例 示例:estimator,transformer和参数 示例:管道 型号选择(超参数调整)管道中的主要概念MLlib将机器学习算法的API标准化,以便将多种算法更容易地组合成单个流水线或工作流程。本节介绍了P原创 2017-07-02 23:37:50 · 519 阅读 · 0 评论 -
spark mllib之基本数据类型
spark mllib支持较多的数据类型,从最基本的数据集RDD到部署到集群的向量和矩阵,mllib的基本数据类型如下: 类型名称 释义 local vector:本地向量集,向spark提供可操作的数据集 labeled point:向量标签,让用户能够分类不同的数据集合 local matrix :本地矩阵,将数据集合以矩阵的形式存储在本地计算机 distributed m原创 2017-06-29 10:50:37 · 1287 阅读 · 0 评论 -
spark mllib之基本数据统计
colStats()返回一个MultivariateStatisticalSummary的实例,它包含列的最大值,最小值,平均值,方差和非零序数,以及总计数。import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.stat.{MultivariateStatisticalSummary, Statistic原创 2017-07-03 12:35:19 · 2012 阅读 · 0 评论 -
spark mllib之分类和回归
Problem Type Supported Methods 二分类: 线性SVM(inear SVMs,), 罗辑回归(logistic regression), 决策树(decision trees),随机森林(random forests), 梯度增强树( gradient-boosted trees), 朴素贝叶斯(naive Bayes) 多分类器: 罗辑回归(logi原创 2017-07-06 14:44:44 · 562 阅读 · 0 评论 -
spark mllib 决策树算法
该样例取自spark高级数据分析第四章的内容,数据集来自http://t.cn/ R2wmIsI,包含一个 CSV 格式的压缩数据文件 covtype.data.gz,附带一个描述数据文件的 信息文件 covtype.info spark mllib将特征向量抽象为LabeledPoint,它由一个包含多个特征值的Spark MLlib Vector 和一个称为标号(label)的目标值组成。该目原创 2017-06-28 00:05:11 · 579 阅读 · 0 评论 -
spark mllib 之音乐推荐
首先该例子取自spark高级数据分析第二章的样例原始数据集来自http://www-etud.iro.umontreal.ca/~bergstrj/audioscrobbler_data.html 主要包括三个文件: 主要的数据集在文件user_artist_data.txt中,它包含141 000个用 户和 160 万个艺术家,记录了约 2420 万条用户播放艺术家歌曲的信息,其中包括播放次数信原创 2017-06-27 23:56:32 · 1383 阅读 · 0 评论 -
spark mllib之Extracting, transforming and selecting fea
提取,转换和选择功能 本节介绍使用功能的算法,大致分为以下几类:提取:从“原始”数据中提取特征 转换:缩放,转换或修改功能 选择:从较大的一组特征中选择一个子集 局部敏感哈希(LSH):这类算法将特征变换与其他算法相结合。Feature Extractors TF-IDF:是文本挖掘中广泛使用的特征向量化方法,以反映语料库中文档的术语的重要性。 用tt表示术语,dd表示文件,DD表示语料库原创 2017-07-02 23:46:05 · 232 阅读 · 0 评论
分享