
大数据
Dillon_Wang
这个作者很懒,什么都没留下…
展开
-
生产环境flume日志采集方案
Flume简介Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。名词介绍:Flume OG:Flume original generation,即Flume0.9x版本Flume NG:Flume next gen...原创 2018-04-16 10:13:38 · 9329 阅读 · 0 评论 -
SecondaryNamenode
原创 2018-05-14 18:39:40 · 186 阅读 · 0 评论 -
Mapreduce on Yarn运行流程
1.客户端请求提交一个MR任务2.resourcemanger返回提交程序资源的路径3.yarn客户端提交job资源4.通知MR提交完毕5.resourcemanger将请求封装成task6.启动MR的AppMaster7.AppMaster申请资源启动nodemanager...原创 2018-05-12 20:01:06 · 701 阅读 · 0 评论 -
MapReduce shuffer流程
原创 2018-05-12 19:50:15 · 650 阅读 · 0 评论 -
hdfs文件上传流程流程
原创 2018-05-12 19:23:22 · 1479 阅读 · 0 评论 -
hdfs读文件流程
原创 2018-05-12 19:20:35 · 145 阅读 · 0 评论 -
hdfs联邦机制
联邦机制解决的是namenode单点压力过大(做的namenode负载均衡)通过采用多个namenode管理不同的目录树结构hdfs联邦机制配置 <property> <name>dfs.nameservices</name> <value>cluster1,cluster2</value> <...原创 2018-05-12 19:14:33 · 1687 阅读 · 1 评论 -
Hadoop 2.x中fsimage和edits合并实现
secondarynamenode作用:帮助namenode合并日志文件,减少namenode启动时间1.secondarynamenode通知namenode进行checkpoint.2.namenode切换日志文件3.secondarynamenode从namenode下载editslog和fsimage文件在内存中合并,生成新的fsimage文件4.将fsimage文件拷贝至namenode...原创 2018-05-12 19:07:30 · 528 阅读 · 0 评论 -
spark repartition和coalesce
repartition(numPartitions:Int):RDD[T]和coalesce(numPartitions:Int,shuffle:Boolean=false):RDD[T] 他们两个都是RDD的分区进行重新划分,repartition只是coalesce接口中shuffle为true的简易实现,(假设RDD有N个分区,需要重新划分成M个分区) 1、N小于M 一般情况下N个分区有数据...原创 2018-05-12 17:13:21 · 219 阅读 · 0 评论 -
基于Spark UI性能优化与调试
Spark有几种部署的模式,单机版、集群版等等,平时单机版在数据量不大的时候可以跟传统的java程序一样进行断电调试、但是在集群上调试就比较麻烦了...远程断点不太方便,只能通过Log的形式进行数据分析,利用spark ui做性能调整和优化。大体上会按照下面的思路进行讲解:怎么访问Spark UISparkUI能看到什么东西?job,stage,storage,environment,excuto...原创 2018-04-26 15:35:12 · 261 阅读 · 0 评论 -
spark配置参数详解
Spark配置参数说明 Spark提供三个位置用来配置系统:Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置环境变量:可以通过每个节点的conf/spark-env.sh脚本设置,例如IP地址、端口等信息日志配置:可以通过log4j.properties配置 Spark属性Spark属性控制大部分的应用程序设置,并且为每个应用程序分别配置它。这些属性可...原创 2018-04-13 18:01:52 · 302 阅读 · 0 评论 -
spark资源层面调优
num-executors 参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。 Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的 各个工作节点上,启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话, 默认只会给你启动少量的Executor进程,此时你的Spark作业的运行...原创 2018-04-13 17:57:52 · 276 阅读 · 1 评论 -
Spark rdd算子
#如果通过并行化的方式创建rdd,如果不指定分区的数量,那么跟你的核数相关#如果通过读取hdfs里面的数据创建rdd,那么分区的数量跟输入切片的数量是一致的 #查询分区长度rdd4.partitions.length #已并行化的方式创建rddvalrdd1=sc.parallelize(List(5,6,4,7,3,8,2,9,1,10))valrdd1=sc.parallelize(List(...原创 2018-04-13 17:53:41 · 234 阅读 · 0 评论 -
hadoop安全模式
原创 2018-05-14 18:40:41 · 154 阅读 · 0 评论