大数据
木鱼&金鱼
活到老卷到老
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据工程师面试题
1. 选择题1.1. 下面哪个程序负责 HDFS 数据存储。a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker答案 C datanode1.2. HDfS 中的 block 默认保存几份?a)3 份 b)2 份 c)1 份 d)不确定答案 A 默认 3 份1.3. 下列哪个程序通常与NameNode在一个节点...原创 2018-03-22 21:22:16 · 9229 阅读 · 2 评论 -
sparkstreaming性能调优
数据接收并行度调优(一)通过网络接收数据时(比如Kafka、Flume),会将数据反序列化,并存储在Spark的内存中。如果数据接收称为系统的瓶颈,那么可以考虑并行化数据接收。每一个输入DStream都会在某个Worker的Executor上启动一个Receiver,该Receiver接收一个数据流。因此可以通过创建多个输入DStream,并且配置它们接收数据源不同的分区数据,达到接收多个数据流的...原创 2018-03-26 20:28:21 · 543 阅读 · 0 评论 -
Spark笔记之Scala语法基础
1.Scala与Java的关系:因为Scala是基于Java虚拟机,也就是JVM的一门编程语言。所有Scala的代码,都需要经过编译为字节码,然后交由Java虚拟机来运行。所以Scala和Java是可以无缝互操作的。Scala可以任意调用Java的代码。所以Scala与Java的关系是非常非常紧密的。2.函数:如果函数体中有多行代码,则可以使用代码块的方式包裹多行代码,代码块中最后一行的返回值就是...原创 2018-03-26 20:15:50 · 317 阅读 · 0 评论 -
storm架构原理
课程介绍课程名称:Storm是什么课程目标: 通过该课程的学习能够了解离线计算与流式计算的区别、掌握Storm框架的基础知识、了解流式计算的一般架构图。课程大纲:1、 离线计算是什么?2、 流式计算是什么?3、 流式计算与离线计算的区别?4、 Storm是什么? 5、 Storm与Hadoop的区别?6、 Storm的应用场景及行业案例7、 Storm的核心组件(重点掌握)8、 Storm的编程模...原创 2018-03-20 21:39:17 · 3025 阅读 · 0 评论 -
Oozie工作流程定义详解
Oozie工作流程定义是一个DAG(Directed Acyclical Graphs)图,它由控制流节点(Control Flow Nodes)或动作节点(Action Nodes)组成,各个节点又是通过表征转移的箭线(transitionsarrows)互相连通。对于工作流一般对应存在流程定义语言,例如jBPM是jPDL,大多数都是基于XML定义的,Oozie流程定义语言也是基于XML定义的,...转载 2018-03-20 20:01:21 · 325 阅读 · 0 评论 -
Zookeeper工作原理(详细)
1、Zookeeper的角色 » 领导者(leader),负责进行投票的发起和决议,更新系统状态 » 学习者(learner),包括跟随者(follower)和观察者(observer),follower用于接受客户端请求并想客户端返回结果,在选主过程中参与投票 » Observer可以接受客户端连接,将写请求转发给leader,但observer不参加投票过程,只同步leader的状态,o...转载 2018-03-20 19:55:47 · 630 阅读 · 0 评论 -
kafka原理
一、基本概念介绍Kafka是一个分布式的、可分区的、可复制的消息系统。它提供了普通消息系统的功能,但具有自己独特的设计。这个独特的设计是什么样的呢?首先让我们看几个基本的消息系统术语:Kafka将消息以topic为单位进行归纳。将向Kafka topic发布消息的程序成为producers.将预订topics并消费消息的程序成为consumer.Kafka以集群的方式运行,可以由一个或多个服务组成...转载 2018-03-20 19:53:52 · 199 阅读 · 0 评论 -
Flume架构以及应用介绍
在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程:这里写图片描述从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步,从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flume的应用(日志采集)进行详细的介绍。(一)Flume架构介绍1、Flume的概念这里写图片描述flume是分布式的日志收集系...转载 2018-03-19 21:58:42 · 434 阅读 · 0 评论 -
Sqoop详解
Sqoop依赖与hadoop 数据的一方,存储在hdfs 底层的数据传输实现map/reduce yarn 只有map任务 因为官网sqoop没有hadoop2.5对应的版本,要根据hadoop的版本进行编译(好像不用对应版本也可以,不过建议最好对应版本)。所以这里使用CDH 5.3.6。比较稳定。 去Cloudera的官网下载相应的发布版本号 http;//archi...转载 2018-03-19 21:57:02 · 238 阅读 · 0 评论 -
Hbase架构与工作原理
HBase工作原理学习HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建大规模结构化的存储集群。HBase的目标是存储并处理大型数据,具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。与MapReduce的离线批处理计算框架不同,HBase是一个可以随机访问的存储和检索数据平台,弥补了HDFS不能随机访...原创 2018-03-19 21:44:11 · 510 阅读 · 0 评论 -
Hive原理及查询优化
Hive是构建在Hadoop上的数据仓库软件框架,支持使用SQL来读,写和管理大规模数据集合。Hive入门非常简单,功能非常强大,所以非常流行。通常来说,Hive只支持数据查询和加载,但后面的版本也支持了插入,更新和删除以及流式api。Hive具有目前Hadoop上最丰富最全的SQL语法,也拥有最慢最稳定的执行。是目前Hadoop上几乎标准的ETL和数据仓库工具。Hive这个特点与其它AdHoc查...转载 2018-03-19 21:27:33 · 567 阅读 · 0 评论 -
Yarn 框架原理及运作机制
1.1 YARN 基本架构YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。1.2 YARN基本...转载 2018-03-19 21:17:27 · 254 阅读 · 0 评论 -
MapReduce shuffle过程原理
MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。Shuffle缓存流程:shuffle是MR处理流程中的一个过程,它的每一个处理步骤是分散在各个map task和reduce task节点上完成的,整体...原创 2018-03-19 21:08:22 · 182 阅读 · 0 评论 -
Spark troubleshooting
1.yarn-client模式引起网卡流量激增问题? 一个Driver和Executor中的task频繁进行通信,通信消息特别多,通信的频率特别高,运行完一个stage,接着运行下一个stage,又是频繁的通信。 解决:yarn-cluster yarn-client模式,通常咱们就只会使用在测试环境中,你写好了某个spark作业,打了一个jar包,在某台测试机器上,用yarn-...转载 2018-03-26 20:36:24 · 212 阅读 · 0 评论
分享