
Scala
LMRzero
一名热爱编程的小白,希望与大家一起学习进步
时间序列分类 / Spark / 实时计算
展开
-
Spark核心之combineByKey详解
在这里单独讲解combineByKey是因为在练习这个算子是一开始并不是太明白,希望能我的实验过程能帮到其它和我有相同疑惑的人。首先给出combineByKey的定义,其他的细节暂时忽略。 def combineByKey[C]( createCombiner: V => C, mergeValue: (C, V) => C, mergeCom...原创 2019-05-31 17:32:54 · 17937 阅读 · 7 评论 -
Spark核心之aggregate和fold
在本文中介绍Spark中Action的两种算子,分别是aggregate和fold,其方法定义分别为:• aggregate[U](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U)(implicit argO: ClassTag[U]): U• fold(zero Value: T)(op: (T, T) =...原创 2019-05-31 19:15:59 · 9366 阅读 · 1 评论 -
Spark 2.0 RPC通信层设计原理分析
Spark RPC层设计概况spark2.0的RPC框架是基于优秀的网络通信框架Netty开发的,我们先把Spark中与RPC相关的一些类的关系梳理一下,为了能够更直观地表达RPC的设计,我们先从类的设计来看,如下图所示:从上图左半边可以看出,RPC通信主要有RpcEnv、RpcEndpoint、RpcEndpointRef这三个核心类。RpcEndpoint是一个通信端...转载 2019-06-01 19:45:00 · 7825 阅读 · 1 评论 -
Lamda架构日志分析流水线(二)
构建日志分析数据流水线1.使用Flume进行日志采集 Flume 是 Cloudera 开发的日志收集系统, 具有分布式、高可用等特点, 为大数据日志采集、汇总聚合和转储传输提供了支持。 为了保证 Flume 的扩展性和灵活性, 在日志系统中定制各类数据发送方及数据接收方。 同时 Flume 提供对数据进行简单处理, 并写各种数据到接受方的能力。Flume 的核心是把数据从...原创 2019-06-15 20:25:31 · 5239 阅读 · 1 评论