
hadoop
hewy0526
这个作者很懒,什么都没留下…
展开
-
hadoop开启调试信息
export HADOOP_ROOT_LOGGER=DEBUG,console原创 2011-10-18 16:32:18 · 710 阅读 · 0 评论 -
HDFS 读写流程
HDFS简介HDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB,GB以及TB,并写一次读多次的场合。而对于低延时数据访问、大量小文件、同时写和任意的文件修改,则并不是十分适合。目前HDFS支持的使用接口除了Java的还有,Thrift、C、FUSE、WebDAV、HTTP等。HDFS是以block-sized转载 2014-01-06 11:16:41 · 713 阅读 · 0 评论 -
浅析Hadoop文件格式
Hadoop 中的文件格式1 SequenceFile SequenceFile是Hadoop API 提供的一种二进制文件,它将数据以的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。它与Hadoop API中的MapFile 是互相兼容的。Hive 中的SequenceFile 继承自Hadoop API 的Sequenc转载 2013-10-28 08:41:53 · 802 阅读 · 0 评论 -
hadoop 0.20.2集群配置入门
http://10.10.11.14:50070/dfshealth.jsphttp://10.10.11.14:50030/jobtracker.jsp一、准备工作在动手准备实践hadoop之前,最好把Google File System和Map/Reduce的原理搞清楚,否则可能要走很多弯路。准备机器:一台master,若干台slave,配置每台机器的/转载 2013-08-08 11:56:13 · 730 阅读 · 0 评论 -
mapreduce shuffle过程问答
通过hadoop权威指南学习hadoop,对shuffle过程一直很疑惑,经过查看网上多个帖子,最终 完成此篇问答总结。1.什么叫shuffle从map任务输出到reducer任务输入之间的过程就叫做shuffle 2.每个map任务都有对应的缓存吗?默认是多少,怎么配置这个值的大小?每个map任务都有一个缓存支持输出,默认大小是100m,可以通转载 2013-07-01 15:29:08 · 889 阅读 · 0 评论 -
教你如何迅速秒杀99%的海量数据处理面试题
前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名,:-),同时,此文可以看做是对这篇文章:十道海量数据处理面试题与十个方法大总结的一般抽象性总结。 毕竟受文章和理论之限,本文摒弃绝大部分的细节,只谈方法/模式论,且注重用最通俗最直白的语言阐述相关问题转载 2013-06-26 18:00:07 · 584 阅读 · 0 评论 -
Hadoop集群配置(最全面总结)
通常,集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves\官方地址:(http://hadoop.apache.org/common/docs/r0.19.2/cn/cluster_setup.html)1 先决条件确保在转载 2013-05-16 13:39:42 · 657 阅读 · 0 评论 -
hadoop python streaming 特殊文本解析
#!/usr/bin/env python import sysskey=sys.argv[1].split(',')for line in sys.stdin: dic={} cols=line.split('\t') for kv in cols[1:]: kv_tmp=kv.split('\x01')原创 2012-02-23 17:50:25 · 664 阅读 · 0 评论 -
Hadoop Streaming python c c++ perl 编程
1、概述Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer)$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-stre转载 2011-12-27 17:40:28 · 2689 阅读 · 0 评论 -
Hadoop Streaming高级编程
1. 概要本文主要介绍了Hadoop Streaming的一些高级编程技巧,包括,怎样在mapredue作业中定制输出输出格式?怎样向mapreduce作业中传递参数?怎么在mapreduce作业中加载词典?怎样利用Hadoop Streamng处理二进制格式的数据等。关于Hadoop Streaming的基本编程方法,可参考:Hadoop Streaming编程。2.转载 2011-12-27 18:08:06 · 1235 阅读 · 0 评论 -
HADOOP的本地库(NATIVE LIBRARIES)介绍
Hadoop是使用Java语言开发的,但是有一些需求和操作并不适合使用java,所以就引入了本地库(Native Libraries)的概念,通过本地库,Hadoop可以更加高效地执行某一些操作。目前在Hadoop中,本地库应用在文件的压缩上面:zlibgzip转载 2011-10-18 16:58:52 · 632 阅读 · 0 评论 -
MapReduce工作原理图文详解
MapReduce工作原理图文详解 前言: 前段时间我们云计算团队一起学习了hadoop相关的知识,大家都积极地做了、学了很多东西,收获颇丰。可是开学后,大家都忙各自的事情,云计算方面的动静都不太大。呵呵~不过最近在胡老大的号召下,我们云计算团队重振旗鼓了,希望大伙仍高举“云在手,跟我走”的口号战斗下去。这篇博文就算是我们团队“重启云计算”的见证吧,也希望有更多优秀的文章出炉。汤帅,亮转载 2014-01-06 10:55:12 · 669 阅读 · 0 评论