
Spark
Bacon肖
从事大数据开发和架构设计,技术特长是Hadoop、Spark、Flink、Doris
展开
-
Spark 解决数据倾斜
数据倾斜是大数据计算中一个最棘手的问题,出现数据倾斜后,Spark 作业的性能会比期望值差很多。数据倾斜的调优,就是利用各种技术方案解决不同类型的数据倾斜问题,保证 Spark 作业的性能。一,数据倾斜原理一个 Spark 作业,会根据其内部的 Action 操作划分成多个 job,每个 job 内部又会根据 shuffle 操作划分成多个 stage,然后每个 stage 会分配多个 task 去执行任务。每个 task 会领取一个 partition 的数据处理。同一个 stage 内的 t原创 2020-09-01 16:49:51 · 193 阅读 · 0 评论 -
Spark-KMeans聚类分析
Spark机器学习库简介MLlib是Spark的机器学习(ML)库。其目标是使实用的机器学习可扩展且简单。从较高的层面来说,它提供了以下工具: ML算法:常见的学习算法,如分类,回归,聚类和协同过滤 特征化:特征提取,转换,降维和选择 管道:用于构建,评估和调整ML管道的工具 持久性:保存和加载算法,模型和管道 实用程序:线性代数,统计,数据处理等使用 Spark 机器学习库来做机器学习工作,可以说是非常的简单,通常只需要在对原始数据进行处理后,然后直...原创 2020-09-01 16:46:05 · 880 阅读 · 0 评论 -
Spark-推荐引擎
推荐模型推荐模型的种类分为:1.基于内容的过滤:基于内容的过滤利用物品的内容或是属性信息以及某些相似度定义,来求出与该物品类似的物品。2.协同过滤:协同过滤是一种借助众包智慧的途径。它利用大量已有的用户偏好来估计用户对其未接触过的物品的喜好程度。其内在思想是相似度的定义。在基于用户的方法的中,如果两个用户表现出相似的偏好(即对相同物品的偏好大体相同),那就认为他们的兴趣类似。同样也可以借助基于物品的方法来做推荐。这种方法通常根据现有用户对物品的偏好或是评级情况,来计算物品之间的某种相似度原创 2020-09-01 16:41:58 · 379 阅读 · 0 评论 -
Spark-RDD宽窄依赖及Stage划分
1.术语解释:Master(Standalone):资源管理的主节点(进程)Cluster Manager:在集群上获取资源的外部服务(例如standalone,Mesos,Yarn)Worker Node(standalone):资源管理的从节点(进程)或者说管理本机资源的进程Application:基于Spark的用户程序,包含了Driver程序和运行在集群上的executor程序Driver Program:用来连接工作进程(Worker)的程序Executor:是在一个Wor原创 2020-09-01 16:23:29 · 2531 阅读 · 0 评论