
hadoop
文章平均质量分 73
wangqiaoshi
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
从hadoop框架与MapReduce模式中谈海量数据处理
从hadoop框架与MapReduce模式中谈海量数据处理前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,觉得Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:海量数据处理。 由此,最近凡是空闲时,便在看转载 2013-06-23 23:31:10 · 318 阅读 · 0 评论 -
Hadoop 2.1.0-cdh4写文件源码分析
from http://blog.youkuaiyun.com/mrtitan/article/details/8581942上篇文章分析了hadoop写文件的流程,既然明白了文件是怎么写入的,再来理解读就顺畅一些了。 同样的,本文主要探讨客户端的实现,同样的,我依然推荐读一下http://www.cnblogs.com/duguguiyu/archive/2009/02/22/139转载 2014-03-06 23:52:06 · 413 阅读 · 0 评论 -
hadoop 4.1.0 cdh4读文件源码分析
上篇文章分析了hadoop写文件的流程,既然明白了文件是怎么写入的,再来理解读就顺畅一些了。 同样的,本文主要探讨客户端的实现,同样的,我依然推荐读一下http://www.cnblogs.com/duguguiyu/archive/2009/02/22/1396034.html,读文件的大致流程如下:不论是文件读取,还是文件的写入,主控服务器扮演的都是中介的角色。客户转载 2014-03-06 23:53:10 · 412 阅读 · 0 评论 -
Hive读取Flume正在写入的HDFS临时文件所遇到的问题
from http://www.sqlparty.com/hive%E8%AF%BB%E5%8F%96flume%E6%AD%A3%E5%9C%A8%E5%86%99%E5%85%A5%E7%9A%84hdfs%E4%B8%B4%E6%97%B6%E6%96%87%E4%BB%B6%E6%89%80%E9%81%87%E5%88%B0%E7%9A%84%E9%97%AE%E9%A2%98/转载 2014-03-07 12:42:24 · 1829 阅读 · 1 评论 -
hdfs dfsclient 源码分析
HDFS读取文件的重要概念HDFS一个文件由多个block构成。HDFS在进行block读写的时候是以packet(默认每个packet为64K)为单位进行的。每一个packet由若干个chunk(默认512Byte)组成。Chunk是进行数据校验的基本单位,对每一个chunk生成一个校验和(默认4Byte)并将校验和进行存储。在读取一个block的时候,数据传输的基本单位是packet,每个pa原创 2014-04-03 22:52:31 · 545 阅读 · 0 评论 -
在大并发写时,HBase的HDFS DFSClient端报SocketTimeoutException的问题分析和解决
异常日志:2012-03-02 12:11:21,983 WARN org.apache.hadoop.hdfs.DFSClient: DFSOutputStream ResponseProcessor exception for block blk_1439491087566691588_6207java.net.SocketTimeoutException: 69000 millis转载 2014-04-03 23:23:08 · 1108 阅读 · 0 评论 -
hdfs DFSClient 源码分析2
这篇文章其实不是专门来讲DFSClient源码的,就光这个类就近4000行代码,不用说牵扯到其他类的代码,围绕着以下错误展开对DFSClient分析由于最近flume1.4.0报04 Apr 2014 07:11:53,111 WARN [ResponseProcessor for block blk_326610323152553165_1164644] (org.apache.had原创 2014-04-05 14:20:38 · 1015 阅读 · 0 评论 -
Hadoop 2.0中用户安全伪装/模仿机制实现原理
from http://dongxicheng.org/mapreduce-nextgen/hadoop-secure-impersonation/本文将从用户伪装(impersonate,翻译成“模仿”也许更好些)角度介绍Hadoop安全机制,用户伪装机制使得Hadoop支持类似于linux “sudo”的功能,即用户A以用户B的身份执行功能。该机制属于Hadoop安全机制的一部分,因此适用转载 2014-03-26 22:21:17 · 1208 阅读 · 0 评论 -
Python: Decorator 简化元编程
少劳多得Decorator 与 Python 之前引入的元编程抽象有着某些共同之处:即使没有这些技术,您也一样可以实现它们所提供的功能。正如 Michele Simionato 和我在 可爱的 Python 专栏的早期文章 中指出的那样,即使在 Python 1.5 中,也可以实现 Python 类的创建,而不需要使用 “元类” 挂钩。Decorator 根本上的平庸与之非常类转载 2013-08-08 11:28:52 · 358 阅读 · 0 评论 -
hadoop test题
http://blog.youkuaiyun.com/jiangheng0535/article/details/16800415原创 2014-03-06 23:49:29 · 308 阅读 · 0 评论 -
hive 中转义符使用问题
在写hive查询的时候,如果遇到特殊字符需要使用一些转义符进行转义,如:hive>select split(ip,’\&’) from students;通过转义,hive能识别&,并按&进行分割。但现实中使用会有一些问题,如hive>select split(ip,’\.’) from students;该语句无法安装’.'来分割ip。经过仔细研究发现需要转载 2014-02-20 11:17:42 · 628 阅读 · 0 评论 -
Hadoop 权限管理
如下图,hadoop访问控制分为两级,其中ServiceLevel Authorization为系统级,用于控制是否可以访问指定的服务,例如用户/组是否可以向集群提交Job,它是最基础的访问控制,优先于文件权限和mapred队列权限验证。Access Control on Job Queues在job调度策略层之上,控制mapred队列的权限。DFSPermmision用户控制文件权限。目前版本中转载 2014-02-20 09:23:23 · 376 阅读 · 0 评论 -
hadoop upgrade
最近因为因为升级hadoop,看到有几篇好文章:http://www.michael-noll.com/blog/2011/08/23/performing-an-hdfs-upgrade-of-an-hadoop-cluster/http://wiki.apache.org/hadoop/Hadoop_Upgrade原创 2013-11-27 14:10:05 · 339 阅读 · 0 评论 -
hadoop 测试 api
我做基准测试主要是用了hadoop-0.20.2-test.jar这个工具jar包。主要是做了I/O的测试。在网上也找了一些资料,抄抄谢谢记录如下:DFSCIOTest 测试libhdfs中的分布式I/O的基准。Libhdfs是一个为C/C++应用程序提供HDFS文件服务的共享库。DistributedFSCheck 文件系统一致性的分布式检查。Test原创 2013-12-14 22:40:31 · 320 阅读 · 0 评论 -
hadoop 优化2
from http://dongxicheng.org/mapreduce/hadoop-optimization-1/4. 从系统实现角度进行优化4.1 在可移植性和性能之间进行权衡论文[16]主要针对HDFS进行了优化,它分析了HDFS性能低下的两个原因:调度延迟和可移植性假设。(1) 调度延迟Hadoop采用的是动态调度算法,即:当某转载 2014-01-11 15:25:41 · 586 阅读 · 0 评论 -
修改namenode,datanode,secondarynode,balance,jobtarcker内存大小
HADOOP_NAMENODE_OPTS=-Xmx4096mHADOOP_DATANODE_OPTS=-Xmx2048mexport HADOOP_NAMENODE_OPTS="-Dcom.sun.management.jmxremote $HADOOP_NAMENODE_OPTS"export HADOOP_SECONDARYNAMENODE_OPTS="-Dcom.sun.mana原创 2014-01-11 16:45:55 · 1080 阅读 · 0 评论 -
hadoop 优化0
1.hadoop-env.sh:该文件用来配置hadoop所需的特殊环境变量:JAVA与HADOOP环境变量的设置(如果在~/.bash_profile中设置了环境变量,这里可以不进行配置)export JAVA_HOME=/home/admin/deploy/java6export HADOOP_HOME=/home/admin/deploy/hadoop-0.20.转载 2014-01-11 16:53:21 · 1104 阅读 · 0 评论 -
Hadoop常用配置总结
Hadoop守护进程日志存放目录:可以用环境变量${Hadoop_LOG_DIR}进行配置,默认情况下是${HADOOP_HOME}/logs1.配置类型节点的环境变量在配置集群的时候可以在conf/hadoop-env.sh配置不同节点的环境变量:DaemonConfigure OptionsNameNode转载 2014-01-11 16:55:17 · 927 阅读 · 0 评论 -
hadoop优化1
1. 概述随着企业要处理的数据量越来越大,MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现,由于其良好的扩展性和容错性,已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台,虽然其应用价值已得到大家认可,但仍存在很多问题,以下是主要几个:(1) Namenode/jobtracker单点故障。 Hadoop采用的是转载 2014-01-11 15:20:56 · 700 阅读 · 0 评论 -
HDFS 原理、架构与特性介绍
1:当前HDFS架构详尽分析HDFS架构1、NameNode2、DataNode3、Sencondary NameNode数据存储细节NameNode 目录结构Namenode 的目录结构: ${ dfs.name.dir}/current /VERSION转载 2014-01-11 15:51:33 · 446 阅读 · 0 评论 -
Hadoop计算能力调度器应用和配置
property> name>mapred.capacity-scheduler.queue.hive.supports-priorityname> value>truevalue> description>description> property> property> name>mapred.capacity-scheduler.queue.h转载 2014-02-19 15:18:24 · 362 阅读 · 0 评论