
Spark
问题不太大
这个作者很懒,什么都没留下…
展开
-
Spark MLlib基于K-Means实现数据聚类
Spark MLlib基于K-Means实现数据聚类K-MeansK-Means简介算法实现原则Spark实现K-MeansSpark机器学习库算法步骤完整代码(基于spark.ml)K-MeansK-Means简介 k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之原创 2020-09-07 08:46:42 · 48726 阅读 · 4 评论 -
Spark超时重启、自动拉起脚本(Python版)
程序说明无自动拉起脚本Spark Streaming程序往往不稳定,遇到一些网络延迟或者部分节点挂掉会导致程序批次时间过长,从而影响程序的实时性。Spark Streaming 程序会因为一些不可控因素宕机,影响数据处理。该自动拉起脚本会根据Spark在Yarn中的任务ID去判断程序是否宕机,如果程序宕机,则启动Spark程序。会根据Yarn的Web页面获取当前批次的处理时长,如果批次执行时间过长的话就会重启Spark程序。代码(Python版)# -*- coding: utf-8原创 2020-07-24 19:47:16 · 48919 阅读 · 0 评论 -
Spark ML计算皮尔逊相似度案例
Spark ML 计算两用户间的皮尔逊相似度功能说明数据格式及说明设计思路Spark ML 计算皮尔逊相关系数代码(Scala)功能说明该程序根据不同用户对不同电影的评分情况,通过Spark ML中Correlation.corr函数计算用户之间的皮尔逊相关矩阵。数据格式及说明该数据为模拟数据。X A:5.0,B:1.0,C:2.0,D:0Y A:3.0,B:1.0,C:2.0,D:3.00其中X、Y分别代表两个用户A-D代表电影名称,电影名后面代表该用户的评分注意:实原创 2020-07-08 17:58:57 · 30401 阅读 · 2 评论 -
Spark MLlib机器学习 Pipelines
Spark ML PipelinesML管道管道的主要概念DataFramePipeline components(管道组件)Transformers(转换器)Estimators(估算器)Properties of pipeline components(管道组件属性)Pipeline(管道)工作流程详细参数ML持久性:Saving and Loading Pipelines持久性的向后兼容代码示例Estimator, Transformer, and ParamPipelineML管道管道的主要概念原创 2020-07-02 22:04:47 · 29242 阅读 · 0 评论 -
Spark入门( 九)——机器学习 Spark MLlib
Spark MLlib机器学习是什么?机器学习Spark MLlibSpark MLlib案例快速入门基本统计Correlation(相关性)Hypothesis testing(假设检验)Summarizer(总结器)未完待续。。。机器学习是什么?机器学习数据挖掘有着50多年的发展历史。机器学习就是其子领域之一,特点是利用大型计算机集群来从海量数据中分析和提取知识机器学习与计算统计学密切相关。它与数学优化紧密关联,为其提供方法、理论和应用领域。机器学习在各种传统设计和编程不能胜任的计算机任务中有广原创 2020-06-24 13:13:59 · 29257 阅读 · 0 评论 -
Spark入门( 八)——Spark流计算新玩法-Structured Streaming
Structured Streaming介绍与使用原创 2020-06-15 22:27:02 · 25306 阅读 · 2 评论 -
Spark入门(七)——最全的Saprk SQL算子介绍与使用(下)
Spark SQL 查询SQL语法查询单行查询模糊查询排序查询limit查询分组查询having过滤case-when行转列pivotCube计算Join表连接子查询开窗函数开窗函数SQL解读ROW_NUMRANK()DENSE_RANK() /密集排名自定义函数单行函数聚合函数(untyped)Load/SavePaquetJSONORC(存储压缩格式,比较节省空间)CSVJDBCDataFrame转为RDDSQL语法查询单行查询// 单行查询var userDF = List((1, "张三",原创 2020-06-12 15:27:16 · 19452 阅读 · 0 评论 -
Spark入门(六)——最全的Saprk SQL算子介绍与使用(上)
Spark DataSet、DataFrame使用 Spark SQL使用方法原创 2020-06-01 17:08:03 · 21030 阅读 · 0 评论 -
Spark入门(五)——Spark Streaming
Spark Streaming学习 Spark流计算原创 2020-05-27 12:53:17 · 20329 阅读 · 3 评论 -
Spark入门(四)——Spark RDD算子使用方法
Spark RDD算子使用方法 spark算子语法原创 2020-05-26 09:58:15 · 18984 阅读 · 0 评论 -
Spark入门(三)——SparkRDD剖析(面试点)
Spark面试 Spark源码剖析,Spark任务过程提交、宽窄依赖面试点 SparkRDD原创 2020-05-22 17:37:03 · 18771 阅读 · 0 评论 -
Spark入门(二)——Spark环境搭建与开发环境
Spark Standalone 和 Spark On Yarn环境搭建原创 2020-05-21 09:18:34 · 18900 阅读 · 0 评论 -
Spark入门(一)——Spark的“前世今生”
Spark入门(一)-Spark简介原创 2020-05-21 08:55:54 · 18885 阅读 · 0 评论 -
Spark 写入带有Kerberos认证的HBase在Yarn-Cluster模式下运行报错
先粘出来报错信息javax.security.sasl.SaslException: GSS initiate failed [Caused by GSSException: No valid credentials provided (Mechanism level: Failed to find any Kerberos tgt)] at com.sun.security.sasl.gss...原创 2019-09-27 10:48:53 · 21162 阅读 · 2 评论 -
Spark SQL 读取 Hive表中数据 在Cluster模式下找不到库
在Spark On Hive使用SparkSQL读取hive表中的数据,local和client模式下测试都可以通过,但在yarn的cluster模式下测试抛出了如下异常:org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException: Database ‘test’ not found;最后找出原因:把spark的任务jar放到y...原创 2019-08-29 17:09:16 · 19885 阅读 · 0 评论