
spark
hxpjava1
毕业于武汉理工大学计算机系,12年开发架构经验,擅长java,k8s
展开
-
spark:map mapPartitions flatmap
mapmap是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。举例:scala> val a = sc.parallelize(1 to 9, 3)scala> val b = a.map(x => x*2)scala> a.collectres10: Array[Int] = Array(1, 2转载 2016-12-26 21:11:18 · 517 阅读 · 0 评论 -
Spark学习(二)Spark高可用集群搭建
1、下载Spark安装包官网网址:http://spark.apache.org/downloads.html2、Spark安装过程2.1、上传并解压缩[potter@potter2 ~]$ tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C apps/2.2、修改配置文件(1)进入配置文件所在目录/home/potter/apps/spark-2.3.0-bin...转载 2019-03-30 13:10:44 · 383 阅读 · 0 评论 -
Spark集群三种部署模式的区别
Spark最主要资源管理方式按排名为Hadoop Yarn, Apache Standalone 和Mesos。在单机使用时,Spark还可以采用最基本的local模式。目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,...转载 2019-03-30 12:49:22 · 1567 阅读 · 0 评论 -
Flink从入门到放弃(入门篇1)-Flink是什么
戳更多文章:1-Flink入门2-本地环境搭建&构建第一个Flink应用3-DataSet API4-DataSteam API5-集群部署6-分布式缓存7-重启策略8-Flink中的窗口9-Flink中的TimeFlink时间戳和水印Broadcast广播变量FlinkTable&SQLFlink实战项目实时热销排行Flin...转载 2019-03-29 21:32:51 · 406 阅读 · 0 评论 -
Flink vs. Spark简单分析
比较指标Apache SparkApache Flink数据处理Hadoop生态:基于批处理,流批均可基于流处理的流批处理,独立运行库流引擎微批处理:不足以处理实时数据与计算结果真正的流处理引擎:基于流,构建流程里\SQL\微批等数据流基于DAG基于运行时CDG(Cyclic Dependency Graph)计算模型收集并计算实时流,基于算子...转载 2019-03-29 21:27:44 · 321 阅读 · 0 评论 -
Flink究竟是靠什么征服饿了么工程师的?
平台现状下面是目前饿了么平台现状架构图:来源于多个数据源的数据写到kafka里,计算引擎主要是Storm,Spark和Flink,计算引擎出来的结果数据再落地到各种存储上。目前Storm任务大概有100多个,Spark任务有50个左右,Flink暂时还比较少。目前我们集群规模每天数据量有60TB,计算次数有1000000000,节点有400个。这里要提一下,Spark和F...转载 2019-03-29 21:19:13 · 438 阅读 · 0 评论 -
流式处理框架对比
分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析的过程,与MapReduce一样是一种通用计算框架,期望延迟在毫秒或者秒级别。这类系统一般采用有向无环图(DAG)。DAG是任务链的图形化表示,用它来描述流处理作业的拓扑。在选择不同的流处理系统时,通常会关注以下几点:运行时和编程模型:平台框架提供的编程模型决定了许多特色功能,编程模型要足够处理各种应用场景。 函数式原语:流处理平台应...转载 2019-03-29 21:07:23 · 6340 阅读 · 0 评论 -
FLink - 流式处理框架选型对比
转载原文:https://blog.youkuaiyun.com/lmalds/article/details/525395901、需求决定引擎选型根据马斯洛需求层次理论,可以将流处理引擎的需求分为以下几种层次: 1、持续性的流处理 2、低延迟的计算结果,亚秒级别的延迟 3、高效可扩展性,每秒百万级的吞吐量 4、容错性,即失败时的可恢复性 5、精...转载 2019-03-29 21:00:45 · 535 阅读 · 0 评论 -
Blink编译及使用
阿里巴巴在2019年1月27日左右开源了Blink,Blink目前的版本是基于Flink1.5.1修改的,然后增加了一些比较好的特性。github地址为:https://github.com/apache/flink/tree/blink1.Blink的编译下面记录一下编译和使用的过程:1.使用mvn clean package打包,遇到报错:BlobServerPut...转载 2019-03-29 20:45:24 · 6297 阅读 · 0 评论 -
阿里重磅开源Blink:为什么我们等了这么久?
摘要: 阿里巴巴计算平台事业部研究员蒋晓伟深入分享Flink和Blink的关系以及未来发展。推荐阅读。12月20日,由阿里巴巴承办的 Flink Forward China 峰会在北京国家会议中心召开,来自阿里、华为、腾讯、美团点评、滴滴、字节跳动等公司的技术专家与参会者分享了各公司基于 Flink 的应用和实践经验。感兴趣的开发者可以看云栖社区的对于大会的主会+5场分论坛的直播与视频...转载 2019-03-29 20:33:58 · 254 阅读 · 0 评论 -
主流流处理框架比较
分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析。它跟 MapReduce 一样是一种通用计算,但我们期望延迟在毫秒或者秒级别。这类系统一般采用有向无环图(DAG)。DAG 是任务链的图形化表示,我们用它来描述流处理作业的拓扑。如下图,数据从 sources 流经处理任务链到 sinks。单机可以运行 DAG,但本篇文章主要聚焦在多台机器上运行 DAG 的情况。关注点当选...转载 2019-03-29 20:21:20 · 1747 阅读 · 0 评论 -
基于Kubernetes的Spark集群部署实践
Spark是新一代分布式内存计算框架,Apache开源的顶级项目。相比于Hadoop Map-Reduce计算框架,Spark将中间计算结果保留在内存中,速度提升10~100倍;同时它还提供更丰富的算子,采用弹性分布式数据集(RDD)实现迭代计算,更好地适用于数据挖掘、机器学习算法,极大提升开发效率。 Docker是轻量级虚拟化容器技术,具有轻便性、隔离性、一致性等特点,可以极大简化开发转载 2017-11-15 21:22:11 · 11714 阅读 · 3 评论 -
shark 安装
本文介绍在计算机集群上如何启动和运行Shark。如果对Amazon EC2上运行Shark感兴趣,请点击这里查看如何使用EC2脚本快速启动预先配置好的集群。依赖:注意:Shark是一个即插即用的工具,所以可以在现有的Hive数据仓库之上运行,不需要您对现有的部署做出任何修改。在集群上运行Shark需要一下几个外部组件:Scala 2.9.3Spark 0.7.2兼容转载 2014-02-14 11:28:24 · 4144 阅读 · 1 评论 -
spark 安装
环境:CentOS 6.4, Hadoop 1.1.2, JDK 1.7, Spark 0.7.2, Scala 2.9.3折腾了几天,终于把Spark 集群安装成功了,其实比hadoop要简单很多,由于网上搜索到的博客大部分都还停留在需要依赖mesos的版本,走了不少弯路。1. 安装 JDK 1.7yum search openjdk-develsudo yum insta转载 2014-02-13 23:25:48 · 19737 阅读 · 5 评论 -
安装Spark+hadoop,spark、hadoop分布式集群搭建...(亲自搭建过!!)
首先说一下我所用的版本: spark-2.1.1-bin-hadoop2.7.tgzhadoop-2.7.3.tar.gzjdk-8u131-linux-x64.rpm123我们实验室有4台服务器:每个节点硬盘:300GB,内存:64GB。四个节点的hostname分别是master,slave01,slave02,slave03。我用的是Spark做并行计算,用HDFS作为数据的...转载 2019-04-02 11:40:16 · 1783 阅读 · 0 评论