
hadoop
文章平均质量分 78
冷峰的思考
这个作者很懒,什么都没留下…
展开
-
hadoop主节点(NameNode)备份策略以及恢复方法
一、dits和fsimage 首先要提到两个文件edits和fsimage,下面来说说他们是做什么的。集群中的名称节点(NameNode)会把文件系统的变化以追加保存到日志文件edits中。当名称节点(NameNode)启动时,会从镜像文件 fsimage 中读取HDFS的状态,并且把edits文件中记录的操作应用到fsimage,也就是合并到fsimage中去。合并后转载 2014-05-20 10:27:15 · 1216 阅读 · 0 评论 -
Hadoop的安全模式----自检
在hadoop集群的时候,集群的运行会进入到安全模式(safeMode)下。在安全模式下运行一段时间后,自动退出。那么,系统在安全模式下干什么了?当集群启动的时候,会首先进入到安全模式。系统在安全模式下,会检查数据块的完整性。假设我们设置的副本数(即参数dfs.replication)是5,那么在dataNode上就应该有5个副本存在,假设只存在3个副本,那么比率就是3/5=0.6原创 2014-05-27 15:02:31 · 1382 阅读 · 0 评论 -
hadoop容错
保证Hadoop中数据存储的可靠性和完整性至关重要。这就涉及云存储系统HDFS的容错机制,其中包括NameNode(元数据节点)的单点失效解决机制、Block数据块的多副本存储机制、NameNode与。山Nede之间的心跳检测机制、数据存储等。而数据处理可靠性方面,MapReduc。相对于HDFS来说,容错较简单,主要是任务出错重做机制。原创 2014-05-30 16:40:04 · 1495 阅读 · 0 评论 -
利用hadoop的partition将数据打散
1、应用场景介绍在日志统计分析的过程中,我们不仅需要对数据进行排序处理,而且还需要对数据进行打散处理。特别是在对海量url进行抓取的时候,由于海量url中同一站点下的url比较多,这样为我们抓取造成困难,因此,需要将url进行打撒处理,使得url尽量的分散开。由于map-reduce的核心就是sort,该框架会将相同的key在reduce中处理,因此,我这里利用partition对key进原创 2014-07-06 16:09:15 · 2233 阅读 · 0 评论 -
hdfs读写流程
HDFS简介HDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB,GB以及TB,并写一次读多次的场合。而对于低延时数据访问、大量小文件、同时写和任意的文件修改,则并不是十分适合。目前HDFS支持的使用接口除了Java的还有,Thrift、C、FUSE、WebDAV、HTTP等。HDFS是以block-sized原创 2014-07-05 23:02:38 · 1617 阅读 · 0 评论 -
hadoop 数据倾斜
在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间,硬件不同就不说了,应用的类型不同其中就比如page rank 或者data mining 里面一些计算,它的每条记录消耗的成本不太一样,这里只讨论关于关系型运算的(一般能用SQL表述的) 数据切分上的原创 2014-07-05 23:08:00 · 941 阅读 · 0 评论 -
数据倾斜总结
数据倾斜总结 在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的redu转载 2014-07-06 16:42:17 · 883 阅读 · 0 评论 -
hadoop 编译生成eclipse插件
可能有时候因为eclipse版本或者操作系统版本的问题使得hadoop 提供的 eclipse plugin不太好用。可以自己生成1.修改$HADOOP_HOME/src/contrib/build-contrib.xml增加一行:上句后面的/home/gushui/eclipse由自己的$ECLIPSE_HOME代替2.修改 $HADOOP_HOME/src/contri原创 2014-06-16 20:23:50 · 1065 阅读 · 0 评论 -
MapReduce读取txt文件存储至HBase,以文件名作Key,整个文件内容作Value
把已抓取好的网络舆情信息(以txt形式存放),存储到HBase中,再进行信息分析。要求:以文件名作Key,整个文件内容作Value思路:txt文件先上传到HDFS中,再使用HBase MapReduce将文件写入HBase中。(很简单的思路)问题分析:首先必须分析到的问题是,如何读取解析txt文件,TextInputFormat是默认的文件解原创 2014-05-29 14:35:32 · 3418 阅读 · 0 评论 -
hive是什么?
一、hive是什么原创 2014-06-03 16:42:24 · 1220 阅读 · 0 评论 -
hadoop本地库
目的鉴于性能问题以及某些Java类库的缺失,对于某些组件,Hadoop提供了自己的本地实现。 这些组件保存在Hadoop的一个独立的动态链接的库里。这个库在*nix平台上叫libhadoop.so. 本文主要介绍本地库的使用方法以及如何构建本地库。组件Hadoop现在已经有以下 compression codecs本地组件:zlibgziplzo在以上组原创 2014-06-16 20:34:22 · 775 阅读 · 0 评论 -
Hadoop中的心跳机制
主节点和从节点之间的通信是通过心跳机制实现的,如NameNode与DataNode之间,JobTracker和TaskTracker之间。所谓“心跳”是一种形象化描述,指的是持续的按照一定频率在运行,类似于心脏在永无休止的跳动。图7-6指的是dataNode向NameNode发送心跳的周期是3秒。图7-6当长时间没有发送心跳时,NameNode就判断DataNode原创 2014-05-27 14:59:51 · 6088 阅读 · 0 评论 -
Hadoop的底层架构——RPC机制
RPC是远程过程调用(Remote Procedure Call),即远程调用其他虚拟机中运行的java object。RPC是一种客户端/服务器模式,那么在使用时包括服务端代码和客户端代码,还有我们调用的远程过程对象。HDFS的运行就是建立在此基础之上的。本章通过分析实现一个简单的RPC程序来分析HDFS的运行机理。下面的代码是服务端代码。public class MyS原创 2014-05-27 14:57:34 · 993 阅读 · 0 评论 -
hive的四种表
一、Table内部表二、Partition 分区表三ExternalTable 外部表Bucket Table 桶表原创 2014-06-03 16:53:09 · 1637 阅读 · 0 评论 -
hadoop大事件
2011年12月27日--1.0.0版本释出。标志着Hadoop已经初具生产规模。2009年4月-- 赢得每分钟排序,59秒内排序500 GB(在1400个节点上)和173分钟内排序100 TB数据(在3400个节点上)。2009年3月-- 17个集群总共24 000台机器。2008年10月-- 研究集群每天装载10 TB的数据。2008年4月-- 赢得世界最快1转载 2014-05-22 15:17:01 · 966 阅读 · 0 评论 -
hadoop在linux下的安装
hadoop有3种安装模式,分别是:本地模式、伪分布模式、集群模式。本文在这里只介绍伪分布安装模式。温馨提示:有意向进一步学习hadoop的伙伴,欢迎加qq:1040195253交流。1、 设置IP地址执行命令:service network restart验证:ifconfig2、 关闭防火墙命令: Serv原创 2014-05-22 15:26:47 · 1064 阅读 · 0 评论 -
Hadoop常见错误问题及解决方法(1)
以下为本人在学习hadoop过程中遇到问题,在此zuo原创 2014-05-22 15:32:38 · 1964 阅读 · 0 评论 -
hadoop常见错误问题及解决方法(2)
以下为本人在学习hadoop过程中遇到问题,在此做下总结方便以后查阅,同时也希望对大家有所帮助;原创 2014-05-22 15:35:19 · 1350 阅读 · 0 评论 -
hadoop常见错误问题及解决方法(3)
以下为本人在学习hadoop过程中遇到问题,在此做下总结方便以后查阅,同时也希望对大家有所帮助;21、从本地上传文件至HDFS文件系统,报如下错误:INFO hdfs.DFSClient: Exception in createBlockOutputStream java.io.IOException: Bad connect ack with firstBadLink原创 2014-05-22 15:36:30 · 1172 阅读 · 0 评论 -
Hadoop虽强大,但不是万能的
注:本文翻译自 http://www.cyanny.com/2013/12/05/hadoop-isnt-silver-bullet/ Hadoop是一个分布式海量数据计算的伟大框架。但是,hadoop并不是万能的。比如,以下场景就不适合用hadoop: 1、低延迟数据访问需要实时查询并在毫秒级内进行低延时访问数据就不适合用hadoop。Hadoop并不适用翻译 2014-05-22 15:38:39 · 708 阅读 · 0 评论 -
Hadoop家族的各个成员
hadoop这个词已经流行好多年了,一提到大数据就会想到hadoop,那么hadoop的作用是什么呢?官方定义:hadoop是一个开发和运行处理大规模数据的软件平台。核心词语是平台,也就是说我们有大量的数据,又有好几个电脑,我们知道应该把处理数据的任务分解到各个电脑上,但是不知道怎样分配任务,怎样回收结果,hadoop大概就帮助我们做了这件事。1、HDFS我们首先应原创 2014-05-26 11:57:14 · 1366 阅读 · 0 评论 -
Hadoop生态系统
本文详细总结Hadoop生态系统周边框架,在进行个人总结前,先把官网的Hadoop介绍贴出来,因为它才是Hadoop之源,任何的理解、总结都是对它的模仿Hadoop生态系统图:Hadoop应用图:下面一 一作简要总结:一、Hadoop HDFS(Hadoop分布式文件系统)源自于Google的GFS论文,发表于2003转载 2014-05-27 14:39:25 · 844 阅读 · 0 评论 -
Hadoop中的计数器
计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们可以在程序的某个位置插入计数器,记录数据或者进度的变化情况。1. 内置计数器我们运行上一章中的例子,看一下计数器的输出内容,如图6-1图6-1在图6-1中,计数器有19个,分为四个组:File Output Format Counters、FileSystemCounters、File原创 2014-05-27 14:54:30 · 1173 阅读 · 0 评论 -
hive top n (order by与sort by区别)
我想说的SELECT TOP N是取最大前N条或者最小前N条。Hive提供了limit关键字,再配合order by可以很容易地实现SELECT TOP N。但是在Hive中order by只能使用1个reduce,如果表的数据量很大,那么order by就会力不从心。例如我们执行SQL:select a from ljntest01 order by a limit 10转载 2014-09-19 16:24:59 · 1708 阅读 · 0 评论