spark
GuaKin_Huang
从今天开始你就开始跑,加速度地跑,千万不要回头。
当你的速度足够足够的快的时候,你会看到一些你从来没有看到过的东西。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark with dashboard example
1、方案一:2、方案二:3、方案三:原创 2018-12-18 18:24:20 · 330 阅读 · 0 评论 -
Spark Streaming 往 kafka 写数据Demo
I’d suggest the following approach:Use (and re-use) one KafkaProducer instance per executor process/JVM.Here’s the high-level setup for this approach:First, you must “wrap” Kafka’s KafkaProducer...原创 2018-12-18 18:30:12 · 1181 阅读 · 0 评论 -
大数据应用各组件涉及端口
Hadoop: 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalNode 的RPC端口 8019 : ZKFC端口19888:jobhistory WEB UI端口Zookeepe...原创 2018-12-18 18:31:32 · 782 阅读 · 0 评论 -
Spark 2.0 与 Cassandra 结合 实现 Rest API 服务
在这篇文章中,我将介绍如何在Spark中使用Akka-http并结合Cassandra实现REST服务,在这个系统中Cassandra用于数据的存储。我们已经见识到Spark的威力,如果和Cassandra正确地结合可以实现更强大的系统。我们先创建一个build.sbt文件,内容如下:name := "cassandra-spark-akka-http-starter-kit" versi...转载 2018-12-18 18:35:38 · 535 阅读 · 0 评论 -
Spark性能优化:shuffle调优
shuffle调优调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占到一小部分...转载 2018-12-18 18:36:38 · 732 阅读 · 0 评论 -
Spark性能优化:开发调优篇
1、前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度...转载 2018-12-18 18:37:17 · 449 阅读 · 0 评论 -
Spark性能优化:数据倾斜调优
前言继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。1.数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜...转载 2018-12-18 18:37:50 · 726 阅读 · 0 评论 -
Spark性能优化:资源调优篇
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪...转载 2018-12-18 18:38:47 · 400 阅读 · 0 评论
分享