
Hadoop
文章平均质量分 81
liuxincumt
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop源代码分析(mapreduce.lib.partition/reduce/output)
Map的结果,会通过partition分发到Reducer上,Reducer做完Reduce操作后,通过OutputFormat,进行输出,下面我们就来分析参与这个过程的类。 Mapper的结果,可能送到可能的Combiner做合并,Combiner在系统中并没有自己的基类,而是用Reducer作为Combiner的基类,他们对外的功能是一样的,只是使用的位置和使用时的上下文不太一样而已。 M转载 2010-12-16 19:57:00 · 1434 阅读 · 0 评论 -
hadoop海量put时出现的socket超时导致put失败解决方案
当一个HDFS系统同时处理许多个并行的put操作,往HDFS上传数据时,有时候会出现dfsclient 端发生socket 链接超时的报错,有的时候甚至会由于这种原因导致最终的put操作失败,造成数据上传不完整。 log类似如下: All datanodes *** are bad. Aborting... 类似这样的错误,常常会在并行的put操作比较多,比如60-80个,每个pu转载 2010-12-16 09:23:00 · 2500 阅读 · 0 评论 -
Hadoop Streaming 实战: 二次排序
我们知道,一个典型的Map-Reduce过程包 括:Input->Map->Patition->Reduce->Output。Pation负责把Map任务输出的中间结果 按key分发给不同的Reduce任务进行处理。Hadoop 提供了一个非常实用的partitioner类KeyFieldBasedPartitioner,通过配置相应的参数就可以使用。通过 KeyFieldBasedPartiti原创 2012-08-28 14:56:41 · 4479 阅读 · 2 评论 -
hadoop的常用参数
1. 往map或reduce传入参数 -cmdenv name=value name在reduce或map的机器上就是环境变量的名字,在python里可以使用: os.environ['name'] 获取value; 2. 使用自己的python -cacheArchive " /user/username/python.tar.gz#python" python.tar.gz原创 2012-11-06 11:11:50 · 3743 阅读 · 0 评论