
Hadoop
dy_252
我说的并不是真正的我,在和我的交流中,你会认识我!
展开
-
Hbase
一、简介<br />history<br /><br />started by chad walters and jim<br />2006.11 G release paper on BigTable<br />2007.2 inital HBase prototype created as Hadoop contrib<br />2007.10 First useable Hbase<br />2008.1 Hadoop become Apache top-level project and Hbase转载 2011-01-27 09:32:00 · 637 阅读 · 0 评论 -
如何对hadoop作业的某个task进行debug单步跟踪
转自:http://blog.youkuaiyun.com/ae86_fc/article/details/5957715对于使用hadoop进行日志分析等工作的开发者来说,相信一直都面临着一个非常头 疼的问题。那就是:对hadoop的mapreduce作业,在分布式集群上进行单个task的单步debug跟踪调试无法办到。只能在本地进行调试,然 后提交到集群中运行,但是集群中如果某个task总转载 2011-10-21 16:31:36 · 781 阅读 · 0 评论 -
hadoop 配置说明
Hadoop配置文件设定了Hadoop平台运行时各方面属性。大量实验证明,合理的配置会大大提高Hadoop的性能。 在Hadoop-0.19.2版 本中,Hadoop配置文件在conf目录下,包括文件 hadoop-default.xml hadoop-site.xml 前者做了默认配置,不允 许修改,用户需要配置时可以在后者中设置转载 2011-10-26 16:35:55 · 514 阅读 · 0 评论 -
eclipse搭建hadoop开发环境
1.版本hadoop:apache0.20.0eclipse:3.3.02.插件hadoop自带,contrib/eclipse_plugin3.步骤* 将hadoop自带插件拷贝至eclipse plugins目录* 启动eclipse,window-->preference--> hadoop map/reduce 指定本地hadoop目录* window-->转载 2011-10-28 10:17:40 · 932 阅读 · 0 评论 -
Hadoop学习一
1、自定义输入类型(输出类型类似)基类:FileInputFormat实现方法getRecordReader实现自定义的RecordReader,方法:next,createKey,createValue,getPos,getProgress,close2、待续。。。原创 2011-11-04 10:04:34 · 587 阅读 · 0 评论 -
hadoop+hive 做数据仓库 & 一些测试
转载标明 :www.bagbaby.cn http://hi.baidu.com/dd_shop背景需求和现状目前的日志系统还称不上系统,只是在几台服务器上存着所有的日志,依靠NFS共享数据,并运算,带来的问题诸多:a) 数据存放凌乱,缺乏系统的目录管理;b) 存储空间有限,并且扩展非常麻烦;c) CV/PV等日志分散存放,合并不方便;d) 媒体服务日志数据集中存放转载 2011-11-10 19:05:00 · 4022 阅读 · 0 评论 -
hadoop处理不同输入目录文件
在写mapred任务的时候免不了要处理join。在join中最简单的就是一对一的join。下面通过一个小例子介绍如果在mapred中实现一对一的join。name.txt100 tom101 mary102 katescore.txt100 90101 85102 80要得到如下的join结果100 tom 90101 mary 85转载 2012-03-20 09:19:06 · 3310 阅读 · 0 评论 -
hadoop删除节点
1、配置参数文件core-site.xml:dfs.hosts.excludes2、执行命令hadoop dfsadmin -refreshNodes执行上述命令后,hadoop在后台进行数据迁移。迁移过程中,可以通过namenode:50070进行监控。此过程中,被删除节点的数据并未删除,只是进行了数据迁移。待迁移完成后,被删除节点的datanode进程将不能访问na原创 2012-03-20 14:35:27 · 901 阅读 · 0 评论 -
hadoop问题解决
1、datanode:java.io.IOException: Too many open filesToo many open files 比較明顯,就是已經到達每個 Process 可以開啟的檔案個數上限。請修改 /etc/security/limits.conf 加入代碼:* soft nofile 743964*原创 2012-04-24 10:17:27 · 482 阅读 · 0 评论 -
hadoop0.20.2分布式缓存程序示例
代码1:adlogetl.javaimport java.io.File;import java.io.IOException;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;import java.util.HashMap;import java.uti原创 2012-05-04 18:21:58 · 634 阅读 · 0 评论 -
hadoop新增datanode处理
1、 新增hadoop用户,与其它datanode采用相同主目录路径2、 datanode之间ssh无密码通信设置3、 hadoop部署(与其它datanode采用相同路径)4、 修改/etc/hosts,增加集群其它节点信息5、java安装6、修改/etc/profile,增加hadoop、java相关变量信息7、修改/etc/security/limits.conf ,原创 2012-08-31 15:29:33 · 828 阅读 · 0 评论 -
对hadoop task进行profiling的几种方法整理
在hadoop中,当一个job的调试完成,执行成功后,job的开发者接下来该思考的问题通常就是:如何将job跑的更快,更加高效,更节省资源呢?这个话题其实是一个老生常谈的话题了,很多有经验的工程师,开发人员和机构都分享过类似的经验。通常来说,应用程序千变万化,程序逻辑也不尽相同,程序的执行瓶颈通常也不尽相同,有的job是IO密集型的作业,那么优化其算法效率意义就不大,而有的job是CPU密集型的,转载 2011-10-21 16:20:32 · 687 阅读 · 0 评论 -
R语言为Hadoop集群数据统计分析带来革命性变化
R作为开源的数据统计分析语言正潜移默化的在企业中扩大自己的影响力。特有的扩展插件可提供免费扩展,并且允许R语言引擎运行在Hadoop集群之上。R语言是主要用于统计分析、绘图的语言和操作环境。R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert G转载 2011-10-11 08:47:32 · 655 阅读 · 0 评论 -
Apache Sqoop
Apache Sqoop (Incubating)THURSDAY OCT 06, 2011Apache Sqoop - OverviewApache Sqoop - Overview Using Hadoop for转载 2011-10-10 15:38:46 · 911 阅读 · 0 评论 -
HBase简介(很好的梳理资料)
一、简介historystarted by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008.1 Hadoop become Apache top-level project and Hbase becomes subproject2008.10 Hbase 0.18,0.19转载 2011-01-30 14:20:00 · 541 阅读 · 0 评论 -
Hadoop源代码分析(mapreduce.lib.partition/reduce/output)
Map的结果,会通过partition分发到Reducer上,Reducer做完Reduce操作后,通过OutputFormat,进行输出,下面我们就来分析参与这个过程的类。Mapper的结果,可能送到可能的Combiner做合并,Combiner在系统中并没有自己的基类,而转载 2011-09-21 09:26:40 · 431 阅读 · 0 评论 -
Hadoop运行mapreduce实例时,抛出错误 All datanodes xxx.xxx.xxx.xxx:xxx are bad. Aborting…
Hadoop运行mapreduce实例时,抛出错误 All datanodes xxx.xxx.xxx.xxx:xxx are bad. Aborting… java.io.IOException: All datanodes xxx.xxx.xxx.xxx:xxx ar转载 2011-09-21 09:25:53 · 1503 阅读 · 0 评论 -
hadoop作业调优参数整理及原理
1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中转载 2011-09-21 09:28:59 · 365 阅读 · 0 评论 -
关于Hadoop结合RDBMS应用的一些思考
最近一段时间一直在从事和hadoop相关的工作,主要是技术内容学习、安装配置优化以及一些框架结构的设计。在此期间,我对于RDBMS和Hadoop的结合应用有了一些自己的看法,写出来大家共同探讨一下。 1、为什么要用Hadoop这个在网上已近有很多的人说过这个问题,我在转载 2011-09-21 09:36:40 · 592 阅读 · 0 评论 -
Hadoop使用常见问题以及解决方法
1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer:程序 里面需要打开多个文件 ,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对转载 2011-09-26 10:53:23 · 836 阅读 · 0 评论 -
Hbase和Hive整合
Hbase和Hive整合测试环境: hadoop0.20.2 hive-0.6.0 hbase-0.20.6 首先分别下载hadoop,hive,hbase,设置各自配置文件。 hbase-0.20.原创 2011-01-27 10:12:00 · 2124 阅读 · 0 评论 -
hadoop ganglia configuration
作者:hovlj_1130 | 可以任意转载, 但转载时务必以超链接形式标明文章原始出处 和 作者信息 及 版权声明http://hi.baidu.com/hovlj_1130/blog/item/e8fe89c3e9a67e160ff47755.html#准备工作转载 2011-09-16 10:43:12 · 769 阅读 · 0 评论 -
大数据下的数据分析平台架构
大数据下的数据分析平台架构2011-08-15 14:59 | 4270次阅读 | 【已有6条评论】发表评论来源:《程序员》 | 作者:谢超 | 收藏到我的网摘随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了转载 2011-10-11 08:46:45 · 712 阅读 · 0 评论 -
hadoop中使用lzo压缩
步骤:1、 编译hadoop-lzo-xx.jarhadoop lzo下载位置: https://github.com/twitter/hadoop-lzo2、拷贝hadoop-lzo-xx.jar至hadoop/lib目录下,同时拷贝相应的本地库lib/native/Linux-amd64-64/* 至hadoop/lib/native/Linux-amd64-64下3、hado转载 2012-08-31 17:23:07 · 1182 阅读 · 0 评论