
Spark
La victoria
向内认知,向外行走
展开
-
Kafka安装教程
Kafka集群部署 概述 之前的大数据集群主要是离线处理的方式对集群的数据进行开发处理。当前的集群数据量已经达到了PB级别了,离线数据获取主要是从数仓侧进行全量或者增量的方式导入大数据平台,部分是通过SFTP的方式解析进入大数据平台,少量数据是通过接口的方式准实时接入到大数据平台。随着业务的发展,对于实时数据的接入和应用显得越来越重要了,接下来的时间会一直更新整个时间数据接入和应用的分享。 ...原创 2019-12-08 11:01:59 · 527 阅读 · 0 评论 -
Spark之——Spark Submit提交应用程序详解
本部分来源,也可以到spark官网查看英文版。 spark-submit 是在spark安装目录中bin目录下的一个shell脚本文件,用于在集群中启动应用程序(如*.py脚本);对于spark支持的集群模式,spark-submit提交应用的时候有统一的接口,不用太多的设置。 使用spark-subm...转载 2019-03-09 11:41:46 · 4331 阅读 · 0 评论 -
RDD特性介绍
转载:https://blog.youkuaiyun.com/fengfengchen95/article/details/80431315 一.Driver Program包含程序的main()方法程序入口,RDDs的定义和操作,它管理很多节点executors二、SparkContextDriver Program通...转载 2019-03-11 00:30:58 · 326 阅读 · 0 评论 -
Kafka如何实现每秒上百万的超高并发写入?
这篇文章来聊一下 Kafka 的一些架构设计原理,这也是互联网公司面试时非常高频的技术考点。 Kafka 是高吞吐低延迟的高并发、高性能的消息中间件,在大数据领域有极为广泛的运用。配置良好的 Kafka 集群甚至可以做到每秒几十万、上百万的超高并发写入。 那么 Kafka 到底是如何做到这么高的吞吐量和性能的呢?这篇文章我们来详细说一下。 页缓存技术 + 磁盘顺序写 首先 Kafka 每次...原创 2019-04-06 16:01:48 · 561 阅读 · 0 评论 -
为什么要使用MQ消息中间件
在面试大型互联网公司的时候,很可能会被问到消息队列的问题: 1.在何种场景下使用了消息中间件? 2.为什么要在系统里引入消息中间件? 3.如何实现幂等? 链式调用是我们在写程序时候的一般流程,为了完成一个整体功能,会将其拆分成多个函数(或子模块),比如模块A调用模块B,模块B调用模块C,模块C调用模块D。但在大型分布式应用中,系统间的RPC交互繁杂,一个功能背后要调用上百个接口并非不可能,...原创 2019-04-06 16:08:02 · 347 阅读 · 0 评论 -
spark2.x-内存管理机制
MemoryManager 管理在jvm内部的spark整体的内存使用,该组件实现了将可用内存按任务划分的策略。在内存(内存使用缓存和数据传输)和执行之间分配内存(计算所使用的内存,如shuffles、joins、sorts和aggregations)。 执行内存指的是计算shuffles、joins、sorts和aggregations,而存储内存指的是用于缓存和传播跨集群的内部数据。每...转载 2019-04-23 16:21:31 · 222 阅读 · 0 评论 -
Spark中的Spark Shuffle详解
Shuffle简介 Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下,reduce task需要跨节点去拉取其它节点上的map task结果。这一过程将会产生网络资源消...转载 2019-05-19 00:48:05 · 1061 阅读 · 0 评论 -
spark性能优化(数据倾斜调优,shuffle调优)
前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以...转载 2019-05-19 00:51:24 · 385 阅读 · 0 评论