- 博客(8)
- 收藏
- 关注
原创 Maven工程中隐藏控制台的日志输出
Maven工程中隐藏控制台的日志输出 在src/main/resources中添加一个file :log4j.properties 内容如下 log4j.rootCategory=ERROR, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.Pattern
2021-05-28 16:58:37
987
原创 离线数仓搭建之ODS层(原始数据层)
离线数仓的ODS层(原始数据层)基于Hive on Spark的搭建 1.预先将原始数据(页面埋点的josn数据采集到HDFS上) 2.配置Hive on Spark (1) 在Hive所在节点部署Spark (2) 在hive中创建spark配置文件 (3) 向HDFS上传Spark纯净版jar包 (4) 修改hive-site.xml文件 3.配置yarn 4.使用工具连接hive,在Hive中创建ODS层 (1)用户行为数据 创建lzo压缩分区表 drop table if exists ods_l
2021-05-12 19:09:12
1062
4
原创 hadoop调优之数据倾斜和小文件问题
Hadoop数据倾斜问题 maptask将大量的相同的key分配到同于一个分区中导致reducetask接受的数据大小不均衡,降低mapreduce的运行速度 Hadoop数据倾斜问题解决方案 1)设定自定义分区规则平衡reduce获取的数据 2)使用combiner合并可以大大减少数据倾斜,在可能的情况夏,Combine的目的就是聚合并精简数据 3)采用Map Join,尽量避免使用Reduce Join 4)重新设计key使分区数据比较平衡 Hadoop小文件弊端 HDFS上每个文件都要在NameNod
2021-04-21 21:32:41
423
1
原创 hadoop中Job提交流程源码详解
Job提交后的源码摘取: 在这里插入waitForCompletion() submit(); // 1建立连接 connect(); // 1)创建提交Job的代理 new Cluster(getConfiguration()); // (1)判断是本地运行环境还是yarn集群运行环境 initialize(jobTrackAddr, conf); // 2 提交job submitter.submitJobInternal(Job.this, cluster) // 1
2021-04-21 20:12:45
204
原创 Flume的参数调优
1)Source 增加Source个(使用Tair Dir Source时可增加FileGroups个数)可以增大Source的读取数据的能力。例如:当某一个目录产生的文件过多时需要将这个文件目录拆分成多个文件目录,同时配置好多个Source 以保证Source有足够的能力获取到新产生的数据。 batchSize参数决定Source一次批量运输到Channel的event条数,适当调大这个参数可以提高Source搬运Event到Channel时的性能。 2)Channel type 选择memory时Cha
2021-04-06 20:15:15
190
1
原创 Flume中常用Source和Channel类型的特点
Source选择 NetCat Source 一个NetCat Source用来监听一个指定端口,并将接收到的数据的每一行转换为一个事件。 TailDir Source: 断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置,实现断点续传。 Exec Source 可以实时搜集数据,但是在Flume不运行或者Shell命令出错的情况下,数据将会丢失。 Spooling Directory Source 监控目录,支持断点续传。 Channel选择 Kafka Channel
2021-04-06 20:12:05
552
1
原创 Hadoop的常用调优参数
资源相关参数 (1)以下参数是在用户自己的MR应用程序中配置就可以生效(配置文件名:mapred-default.xml) 1.mapreduce.map.memory.mb 一个MapTask可使用的资源上限(单位:MB),默认为1024。如果MapTask实际使用的资源量超过该值,则会被强制杀死。 2.mapreduce.reduce.memory.mb 一个ReduceTask可使用的资源上限(单位:MB),默认为1024。如果ReduceTask实际使用的资源量超过该值,则会被强制杀死。 3
2021-03-18 10:01:38
253
原创 Hadoop中Yarn基本架构
Yarn基本架构 YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。 Yarn工作机制 (1)MR程序提交到客户端所在的节点。 (2)YarnRunner向ResourceManager申请一个Application。 (3)RM将该应用程序的资源路径返回给YarnRunner。 (4)该程序将运行所需资源提交到HDFS上。 (5)程序资源提交完毕后,申请运行mrAppMaster。 (6)RM将用户的请求初始化成一
2021-03-16 18:22:13
159
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人