
大数据开发
文章平均质量分 91
大数据开发
阿华田512
小红书 搜索阿华田512 即可获取所有专栏博客内容
展开
-
yarn集群NodeManager日志聚合慢问题解决方案
正常情况作业提交到 Yarn 集群时,作业完成或者失败后,每个 NM 节点都会对每个 app 作业进行日志聚合操作,存储到hdfs指定的目录下,但是最近发现越来越多的任务通过yarn logs命令无法查询,经过排查发现很多任务的日志聚合变慢了,需要半小时甚至更多时间才能聚合完成。原创 2022-10-28 21:19:01 · 1233 阅读 · 0 评论 -
强烈推介!!! java工程师(大数据)值得拥有的顶级GitHub项目
1.JavaGuidehttps://github.com/Snailclimb/JavaGuide简介:Java学习+面试指南推荐理由:一份涵盖大部分Java程序员所需要掌握的核心知识。2.Python-100-Dayshttps://github.com/jackfrued/Python-100-Days简介:python知识大全推荐理由:Python – 10...原创 2020-02-22 16:38:17 · 1474 阅读 · 0 评论 -
hive参数配置终极总结
概要 我们平时在使用hive执行一些SQL任务时。经常会遇到执行速度很慢,数据倾斜,资源不够用等问题。那是因为我们没有合理的使用hive。hive 的主要配置文件为 conf 中 hive-site.xml,里面包含许多配置参数,灵活的根据业务进行相关的参数配置,可以解决以上问题。下面将介绍hive的全部参数的意义以及如何配置。重要的会标红。hive参数大全设置一...原创 2018-12-03 15:36:42 · 4353 阅读 · 0 评论 -
HA flume 高可用集群的搭建与使用
HA Flume流程图搭载详细流程 在 flume1的sink中设置一个组group,这个组里面有两个sink,sink1和sink2.其中sink1负责把数据下沉到flume2。Sink2负责把数据下沉到flume3。并且设置优先级,比如 设置sink1的优先级为1000,设置sink2的优先级为10,谁的优先级大,谁负责采集数据。最后设置一个乘法因子,设置为1...原创 2018-07-02 18:42:55 · 1995 阅读 · 0 评论 -
flume +kafka+SparkStreaming日志监控平台
流程图采集方案 #agentsection producer.sources= s1 producer.channels= c1 producer.sinks= k1 #配置数据源 producer.sources.s1.type=exec #配置需要监控的日志输出文件或目录 producer.sources.s1.com...原创 2018-07-02 18:38:51 · 683 阅读 · 0 评论 -
mapreduce的cleanUp和setUp的特殊用法(TopN问题)和常规用法
特殊用法 我们上来不讲普通用法,普通用法放到最后。我们来谈一谈特殊用法,了解这一用法,让你的mapreduce编程能力提高一个档次,毫不夸张!!!扯淡了,让我们进入正题: 我们知道reduce和map都有一个局限性就是map是读一行执行一次,reduce是每一组执行一次,但是当我们想全部得到数据之后,按照需求删选然后再输出怎么办? 这时候只使用map和r...原创 2018-04-21 15:41:26 · 6626 阅读 · 7 评论 -
YARN集群搭建与使用
一 yarn简介Yarn(Yet Another Resource Negotiator)是Hadoop集群的资源管理系统,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。二 YARN的核心思想将JobTracker和TaskTracker进行分离,它由下面几大构成组件:a. 一个全局的资源管理器 ...原创 2018-04-13 17:50:08 · 3759 阅读 · 0 评论 -
MapReduce核心原理与使用
一MapReduce介绍MapReduce是一种可用于数据处理的编程框架。MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。在分布式计算中,MapReduce框架负责处理了并行编程中分布式存储、工作调度、负载均衡、容错均...原创 2018-04-13 17:24:15 · 1536 阅读 · 0 评论 -
hdfs对文件的读取的内部流程及原理
客户端写数据到HDFS的流程客户端要向HDFS写数据,首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode,然后,客户端按顺序将文件逐个block传递给相应datanode,并由接收到block的datanode负责向其他datanode复制block的副本写详细步骤:1、根namenode通信请求上传文件,namenode检查目标文件是否已存在,父目...原创 2018-04-11 23:57:46 · 1032 阅读 · 0 评论