
Spark学习指南与实战
文章平均质量分 80
Spark学习入门到Spark机器学习实战,实现大数据入门到精通!
镰刀韭菜
视野,意志,品格;目标,坚持,实践
展开
-
Spark性能优化指南——高级篇
Spark性能优化指南——高级篇原文链接:美团点评技术博客前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种...转载 2018-06-26 15:13:14 · 262 阅读 · 0 评论 -
Spark学习(2)——设计机器学习系统
补充内容:Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。默认情况下,一个block最大为128M。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个...原创 2018-05-24 20:22:26 · 384 阅读 · 0 评论 -
Spark性能优化指南:基础篇
Spark性能优化指南——基础篇原文链接:美团点评技术博客前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark...转载 2018-06-26 15:11:00 · 228 阅读 · 0 评论 -
Spark学习(1)——概述
Spark特点: 高效(比MapReduce快10~100倍) 内存计算引擎,提供Cache机制来支持需要反复迭代计算或者多次数据共享,减少数据读取的IO开销 DAG引擎,减少多次计算之间中间结果写到HDFS的开销 使用多线程池模型来减少task启动开销,shuffle过程中避免不必要的sort操作以及减少磁盘IO操作 易用 提供...原创 2018-05-20 20:07:27 · 493 阅读 · 0 评论 -
详细探究Spark的shuffle实现
详细探究Spark的shuffle实现Background在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的逻辑,本文就深入研究Spark的shuffle是如何实现的,有什...转载 2018-06-26 14:25:44 · 247 阅读 · 0 评论 -
【大数据】Spark面试100问
Spark问题精华 Q:什么是Spark? A:简单理解,Spark是在Hadoop基础上的改进,是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用的并行计算框架,Spark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HD...原创 2019-08-05 00:53:51 · 966 阅读 · 0 评论 -
【Spark】Spark2.X—Deploy模块解析
Spark2.X—Deploy模块解析 模块整体架构 Deploy模块是Spark standalone的分布式框架,其采用了master/slave架构,主要包括以下几个进程。 Master: 1)接受worker注册并管理所有的worker,并命令Worker启动Driver和Executor 2)接受client提交的Application,并将Application提交给worker. W...原创 2019-11-27 23:13:12 · 327 阅读 · 0 评论 -
【Spark】Spark安装和使用
Spark安装和使用 原文地址:厦门大学数据库实验室,作者:林子雨 Spark可以独立安装使用,也可以和Hadoop一起安装使用。本教程中,我们采用和Hadoop一起安装使用,这样,就可以让Spark使用HDFS存取数据。需要说明的是,当安装好Spark以后,里面就自带了scala环境,不需要额外安装scala,因此,“Spark安装”这个部分的教程,假设读者的计算机上,没有安装Scala,也...转载 2018-08-06 11:07:52 · 2478 阅读 · 0 评论