
Hadoop
文章平均质量分 87
DianaCody
这个作者很懒,什么都没留下…
展开
-
【Hadoop】HDFS笔记(二):HDFS的HA机制和Federation机制
HA解决了HDFS的NameNode的单点问题;Federation解决了整个HDFS集群中只有一个名字空间,并且只有单独的一个NameNode管理所有DataNode的问题。 一、HA机制(High Availability)1.HA集群HDFS的高可用性(HA, High Availability)是为了解决集群不可用的问题引入的,集群不可用主要是宕机、NameNode软硬原创 2014-09-22 19:59:49 · 3487 阅读 · 0 评论 -
【HBase】HBase笔记:HBase的Region机制
HBase 的机制里包含了许多优秀的算法,如 Region 定位、Region 分配、Region Server的上线和下线、Master 的上线和下线。在谈到这些之前,先把 HBase 的基本架构里的一些概念列在这里。一、HBase组成1.Client:利用 RPC 机制与 HMaster 和HRegionServer通信;2.Zookeeper: 协调,避免 HMaster 单点问原创 2014-09-24 22:18:51 · 5263 阅读 · 2 评论 -
【Hadoop】MapReduce笔记(四):MapReduce优化策略总结
Cloudera 提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统,并且它们运行着各式各样用户的代码,这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来,调整cluster或job的运行更像一个医生对待病人一样,找出关键的“症状”,对于不同的症状有不同的诊断和处理方式。 在医学领域,没有转载 2014-09-24 00:25:08 · 2054 阅读 · 0 评论 -
【Hadoop】MapReduce笔记(三):MapReduce的Shuffle和Sort阶段详解
整体的Shuffle过程包含以下几个部分:Map端Shuffle、Sort阶段、Reduce端Shuffle。即是说:Shuffle过程横跨 map 和 reduce 两端,中间包含 sort 阶段,就是数据从 map task 输出到reduce task输入的这段过程。-----------------------------------------------------------原创 2014-09-23 20:08:10 · 9107 阅读 · 5 评论 -
【Hive】Hive笔记:Hive调优总结——数据倾斜,join表连接优化
数据倾斜即为数据在节点上分布不均,是常见的优化过程中常见的需要解决的问题。常见的Hive调优的方法:列剪裁、Map Join操作、 Group By操作、合并小文件。 一、表现1.任务进度长度为99%,在任务监控页面中发现只有几个 reduce 子任务未完成; 2.单一 reduce 记录与平均记录数差异过大(大于3倍),最长时长>>平均时长; 3.原创 2014-09-24 00:57:37 · 9692 阅读 · 0 评论 -
【Hadoop】MapReduce笔记(二):MapReduce容错,任务失败处理
典型问题:Hadoop如何判断一个任务失败?失败了怎么做?分析:实际情况下,用户代码存在软件错误、进程崩溃、机器故障等都会导致失败。Hadoop判断的失败有不同级别类型,针对不同级别的失败有不同的处理对策,这就是MapReduce的容错机制。下面是几个不同级别失败的分类:一、任务失败分为3种情况:Task失败、子进程JVM退出、超时检测被关闭。1.任务失败。最常见的是Map或Red原创 2014-09-23 12:30:03 · 3850 阅读 · 0 评论 -
【Hadoop】MapReduce笔记(一):MapReduce作业运行过程、任务执行
一、MR作业运行过程JobClient的runJob()方法:新建JobClient实例,并调用其submitJob()方法。提交作业后,runJob()每秒轮询作业进度,如果发现上次上报后信息有改动,则把进度报告输出到控制台。作业完成,成功则显示作业计数器;失败则输出错误到控制台。 (一)JobClient的submitJob()的作业提交过程:1. 向JobTracker请求一原创 2014-09-23 09:49:22 · 3739 阅读 · 0 评论 -
【Hadoop】HDFS笔记(三):HDFS的Shell操作
HDFS处理文件的命令和Linux命令差不多,但注意区分大小写。(Linux区分大小写,Windows不区分大小写) 一、fs命令键入命令“./bin/hadoop fs”将输出能够支持的命令列表。Usage: java FsShell [-ls ] [-lsr ] [-df ] [-du [-s] [-h] ] [-原创 2014-09-22 22:26:38 · 1107 阅读 · 0 评论 -
【Hadoop】HDFS笔记(一):Hadoop的RPC机制
RPC(Remote Procedure Call, 远程过程调用)主要面对两个问题:1.对象调用方式;2.序列/反序列化机制。Hadoop实现的RPC组件依赖于Hadoop Writable类型支持。Writable接口要求每个实现类能将本类正确序列化与反序列化。 Hadoop RPC使用java动态代理和反射机制,来实现对象调用。Client到Server的数据序列化与反序列原创 2014-09-22 18:30:18 · 1695 阅读 · 0 评论 -
hive表信息查询:查看表结构、表操作等
1.如何查看hive表结构?2.如何查看表结构信息?3.如何查看分区信息?4.哪个命令可以模糊搜索表原创 2016-01-21 12:36:07 · 2054 阅读 · 0 评论