
hadoop
hewy0526
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop开启调试信息
export HADOOP_ROOT_LOGGER=DEBUG,console原创 2011-10-18 16:32:18 · 726 阅读 · 0 评论 -
HDFS 读写流程
HDFS简介 HDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB,GB以及TB,并写一次读多次的场合。而对于低延时数据访问、大量小文件、同时写和任意的文件修改,则并不是十分适合。 目前HDFS支持的使用接口除了Java的还有,Thrift、C、FUSE、WebDAV、HTTP等。HDFS是以block-sized转载 2014-01-06 11:16:41 · 720 阅读 · 0 评论 -
浅析Hadoop文件格式
Hadoop 中的文件格式1 SequenceFile SequenceFile是Hadoop API 提供的一种二进制文件,它将数据以的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。它与Hadoop API中的MapFile 是互相兼容的。Hive 中的SequenceFile 继承自Hadoop API 的Sequenc转载 2013-10-28 08:41:53 · 811 阅读 · 0 评论 -
hadoop 0.20.2集群配置入门
http://10.10.11.14:50070/dfshealth.jsp http://10.10.11.14:50030/jobtracker.jsp 一、准备工作 在动手准备实践hadoop之前,最好把Google File System和Map/Reduce的原理搞清楚,否则可能要走很多弯路。 准备机器:一台master,若干台slave,配置每台机器的/转载 2013-08-08 11:56:13 · 756 阅读 · 0 评论 -
mapreduce shuffle过程问答
通过hadoop权威指南学习hadoop,对shuffle过程一直很疑惑,经过查看网上多个帖子,最终 完成此篇问答总结。 1.什么叫shuffle 从map任务输出到reducer任务输入之间的过程就叫做shuffle 2.每个map任务都有对应的缓存吗?默认是多少,怎么配置这个值的大小? 每个map任务都有一个缓存支持输出,默认大小是100m,可以通转载 2013-07-01 15:29:08 · 908 阅读 · 0 评论 -
教你如何迅速秒杀99%的海量数据处理面试题
前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名,:-),同时,此文可以看做是对这篇文章:十道海量数据处理面试题与十个方法大总结的一般抽象性总结。 毕竟受文章和理论之限,本文摒弃绝大部分的细节,只谈方法/模式论,且注重用最通俗最直白的语言阐述相关问题转载 2013-06-26 18:00:07 · 596 阅读 · 0 评论 -
Hadoop集群配置(最全面总结)
通常,集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves\ 官方地址:(http://hadoop.apache.org/common/docs/r0.19.2/cn/cluster_setup.html) 1 先决条件 确保在转载 2013-05-16 13:39:42 · 672 阅读 · 0 评论 -
hadoop python streaming 特殊文本解析
#!/usr/bin/env python import sys skey=sys.argv[1].split(',') for line in sys.stdin: dic={} cols=line.split('\t') for kv in cols[1:]: kv_tmp=kv.split('\x01')原创 2012-02-23 17:50:25 · 675 阅读 · 0 评论 -
Hadoop Streaming python c c++ perl 编程
1、概述 Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如: 采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer) $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-stre转载 2011-12-27 17:40:28 · 2700 阅读 · 0 评论 -
Hadoop Streaming高级编程
1. 概要 本文主要介绍了Hadoop Streaming的一些高级编程技巧,包括,怎样在mapredue作业中定制输出输出格式?怎样向mapreduce作业中传递参数?怎么在mapreduce作业中加载词典?怎样利用Hadoop Streamng处理二进制格式的数据等。 关于Hadoop Streaming的基本编程方法,可参考:Hadoop Streaming编程。 2.转载 2011-12-27 18:08:06 · 1272 阅读 · 0 评论 -
HADOOP的本地库(NATIVE LIBRARIES)介绍
Hadoop是使用Java语言开发的,但是有一些需求和操作并不适合使用java,所以就引入了本地库(Native Libraries)的概念,通过本地库,Hadoop可以更加高效地执行某一些操作。 目前在Hadoop中,本地库应用在文件的压缩上面: zlibgzip转载 2011-10-18 16:58:52 · 643 阅读 · 0 评论 -
MapReduce工作原理图文详解
MapReduce工作原理图文详解 前言: 前段时间我们云计算团队一起学习了hadoop相关的知识,大家都积极地做了、学了很多东西,收获颇丰。可是开学后,大家都忙各自的事情,云计算方面的动静都不太大。呵呵~不过最近在胡老大的号召下,我们云计算团队重振旗鼓了,希望大伙仍高举“云在手,跟我走”的口号战斗下去。这篇博文就算是我们团队“重启云计算”的见证吧,也希望有更多优秀的文章出炉。汤帅,亮转载 2014-01-06 10:55:12 · 680 阅读 · 0 评论