
spark
千寻千梦
这个作者很懒,什么都没留下…
展开
-
Spark常用设置,API和错误解决方法
Spark常用设置,常用API使用,及错误解决办法原创 2016-08-26 11:30:59 · 1943 阅读 · 0 评论 -
Spark2.0 特征提取、转换、选择之二:特征选择、文本处理,以中文自然语言处理(情感分类为例)
Spark2.0文本特征提取原创 2016-09-04 11:15:47 · 5218 阅读 · 0 评论 -
Spark-Hive
启动:spark-sql log4j.properties : log4j.rootCategory=WARN,console 这样就不会有大量INFO输出了#hive-site.xml:metastore.warehouse.dirproperty> <name>hive.metastore.warehouse.dir</name> <value>/home/hadoop/hdfs原创 2016-09-21 22:18:43 · 2255 阅读 · 0 评论 -
Spark机器学习系列之13: 支持向量机SVM
SVM 理论 spark scikit原创 2016-10-21 13:07:25 · 11092 阅读 · 2 评论 -
Spark2.0机器学习系列之11: 聚类(幂迭代聚类, power iteration clustering, PIC)
幂迭代聚类, power iteration clustering, PIC 原理简介 Spark 代码 参数设置原创 2016-09-26 22:33:46 · 10933 阅读 · 3 评论 -
Spark2.0机器学习系列之12: 线性回归及L1、L2正则化区别与稀疏解
我的博客中参考了大量的文章或者别的作者的博客,有时候疏忽了并未一一标注,本着分享交流知识的目的,如果侵犯您的权利,这并非我的本意,如果您提出来,我会及时改正。概述 线性回归拟合一个因变量与一个自变量之间的线性关系y=f(x)y=f(x)。 Spark中实现了: (1)普通最小二乘法 (2)岭回归(L2正规化) (3)Lasso(L1正原创 2016-09-28 15:38:44 · 13201 阅读 · 2 评论 -
Spark2.0机器学习系列之10: 聚类(高斯混合模型 GMM)
Spark GMM 高斯混合模型概念 参数设置 模型评估 代码原创 2016-09-25 18:46:55 · 11616 阅读 · 0 评论 -
Spark2.0机器学习系列之9: 聚类算法(LDA)
聚类算法 LDA Spark2.0代码原创 2016-09-21 15:58:06 · 25025 阅读 · 6 评论 -
Spark2.0机器学习系列之5:GBDT(梯度提升决策树)、GBDT与随机森林差异、参数调试及Scikit代码分析
GBDT概念 与随机森林的差异 Spark2.0中参数调试原创 2016-08-30 09:04:33 · 19763 阅读 · 5 评论 -
PCA主成份分析(Spark 2.0)
Spark 2.0 Scikit PCA 主成分个数选择原创 2016-08-28 19:15:05 · 4512 阅读 · 4 评论 -
Spark 2.0 -SQL 学习笔记
Spark SQL是Spark结构化数据处理模块,不同于基本的Spark RDD API,Spark SQL提供了更多数据结构和计算功能,并使用了这些丰富的信息进行了额外的优化。可以通过SQL和DataSet API和Spark SQL交互。与不同API/编程语言无关,使用了相同的执行引擎。翻译 2016-08-24 08:29:05 · 2550 阅读 · 0 评论 -
Spark GraphX学习笔记
Spark 2.0Graphx学习笔记概述、图计算应用场景、Spark中图的建立及图的基本操作利用顶点和边RDD建立一个简单的属性图、读取文件建立图三种视图及操作、Spark GraphX中的图的函数大全、结构操作子图subgraph、图的基本信息统计-度计算、Join 连接、相邻聚合消息聚合图算法工具包、数三角形、连通图、PageRank让链接来投票pregel、应用实例一Louvai原创 2016-08-26 08:42:45 · 19227 阅读 · 0 评论 -
Spark2.0机器学习系列之2:Logistic回归及Binary分类(二分问题)结果评估
参数设置α:梯度上升算法迭代时候权重更新公式中包含 α : http://blog.youkuaiyun.com/lu597203933/article/details/38468303 为了更好理解 α和最大迭代次数的作用,给出Python版的函数计算过程。# 梯度上升算法-计算回归系数 # 每个回归系数初始化为1# 重复R次:# 计算整个数据集的梯度# 使用α*梯度更新回原创 2016-08-25 12:45:53 · 21363 阅读 · 5 评论 -
Spark2.0机器学习系列之1:基于Pipeline、交叉验证、ParamMap的模型选择和超参数调优
ML Tuning: model selection and hyperparameter tuning 交叉验证 crossValiation spark ParamMap 参数选择和调优K 折交叉验证Spark Cross Validation 代码原创 2016-08-27 11:44:55 · 8036 阅读 · 1 评论 -
Spark2.0机器学习系列之4:随机森林介绍、关键参数分析
随机森林算法介绍 Spark2.0中的参数设置 代码分析原创 2016-08-29 14:19:32 · 8985 阅读 · 0 评论 -
Spark2.0 协同过滤推荐
Spark合同过滤 ALS算法代码 参数选择原创 2016-08-25 23:17:18 · 3604 阅读 · 4 评论 -
Spark2.0机器学习系列之6: MLPC(多层神经网络)
Spark2.0 MLPC(多层神经网络分类器)算法概述 MultilayerPerceptronClassifier(MLPC)这是一个基于前馈神经网络的分类器,它是一种在输入层与输出层之间含有一层或多层隐含结点的具有正向传播机制的神经网络模型。 中间的节点使用sigmoid (logistic)函数,输出层的节点使用softmax函数原创 2016-08-31 09:11:16 · 9194 阅读 · 0 评论 -
Spark2.0机器学习系列之7:多类分类问题(方法归总和分类结果评估)
One-vs-Rest classifier将只能用于二分问题的分类方法扩展到多类Spark中那些方法可以用于多类分类多类分类结果评估(MulticlassClassificationEvaluator类) 在前面一篇文章里面介绍的关于二分问题的评估方法,部分评估方法可以延伸到多类分类为问题。这些概念可以参考 下面的文章: (http://blog.youkuaiyun.com/qq_34531825/a原创 2016-08-31 18:04:25 · 6455 阅读 · 2 评论 -
Spark2.0 特征提取、转换、选择之一:数据规范化,String-Index、离散-连续特征相互转换
数据规范化标准化 Normalizer 规范化、StandardScaler、 MinMaxScaler、 MaxAbsScaler label 与feature的重新编号(码)。 VectorIndexer、 StringIndexer、 IndexToString 、oneHotEncoder、bucketizer分箱,QuantileDiscretizer原创 2016-09-02 17:40:44 · 13015 阅读 · 1 评论 -
Spark2.0机器学习系列之3:决策树及Spark 2.0-MLlib、Scikit代码分析
决策树种类差别Spark2.0 MLLib中决策树代码分析,参数选取,剪枝原创 2016-08-26 18:43:45 · 8237 阅读 · 3 评论 -
Spark2.0 Pipelines,Java版
概述MLlib中众多机器学习算法API在单一管道或工作流中更容易相互结合起来使用。管道的思想主要是受到scikit-learn库的启发。 ML API使用Spark SQL中的DataFrame作为机器学习的数据集。DataFrame不同的列可以分别存储文本,特征向量,真实的Lables,和预测值。Transformer:一个Transformer是一个算法,可以将一个DataFrame转换原创 2016-08-25 12:40:32 · 934 阅读 · 0 评论 -
Spark Structured Streaming、Kafak整合
欢迎使用Markdown编辑器写博客SBT 依赖包: groupId = org.apache.spark artifactId = spark-sql-kafka-0-10_2.11 version = 2.1.1在Spark2.x中,Spark Streaming获得了比较全面的升级,称为Structured Streaming,和之前的很不同,功能更强大,效率更高,跟其他的原创 2017-05-26 13:56:49 · 1736 阅读 · 0 评论