
Hadoop
文章平均质量分 75
张小琦
这个作者很懒,什么都没留下…
展开
-
关于 hadoop reduce 阶段遍历 Iterable 的 2 个“坑”
之前有童鞋问到了这样一个问题:为什么我在 reduce 阶段遍历了一次 Iterable 之后,再次遍历的时候,数据都没了呢?可能有童鞋想当然的回答:Iterable 只能单向遍历一次,就这样简单的原因。。。事实果真如此吗?还是用代码说话:01package com.test;02转载 2014-05-17 14:55:04 · 1559 阅读 · 1 评论 -
Jmeter 在 linux 命令行下报“获取连接时间过长”的异常
这两天因为要对刚上线的项目进行压力测试,比较紧急,使用了不怎么熟悉的Jmeter。虽然之前用过一段时间LoadRunner,但是由于它本身过于沉重,安装比较复杂,对加压机和被加压机要求比较高,而且本人在linux上面没有使用经验。更重要的是它是收费的,需要相当昂贵的价格购买license,于是放弃它而选择了更为轻量的Jmeter。原创 2015-08-18 15:20:26 · 4065 阅读 · 1 评论 -
Java 和 Hadoop 序列化机制浅讲
序列化 (Serialization)将对象的状态信息转换为可以存储或传输的形式的过程(字节流)。在序列化期间,对象将其当前状态写入到临时或持久性存储区。以后,可以通过从存储区中读取或反序列化对象的状态,重新创建该对象。原创 2015-04-22 11:42:30 · 1900 阅读 · 0 评论 -
MyEclipse 打包到hadoop集群上运行MR程序提示ClassNotFoundException的两种原因
今天写MR程序,原来用TextInputFormat改为用KeyValueTextInputFormat原创 2014-05-14 00:19:42 · 1827 阅读 · 0 评论 -
MapReduce: 提高MapReduce性能的七点建议
Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统,并且它们运行着各式各样用户的代码,这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来,调整cluster或job的运行更像一个医生对待病人一样,找出关键的“症状”,对于不同的症状有不同的诊断和处理方式。 在医学领域,没转载 2014-05-12 22:42:27 · 862 阅读 · 0 评论 -
在MapReduce远程提交输出结果边为空
今天在做hadoop小实验,需要读取文件路径,原创 2014-05-11 17:27:06 · 4241 阅读 · 0 评论 -
实验室要做一个hadoop上传文件性能测试,自己用实验室电脑做了个简单的测试
硬件环境: 实验室的3台老机器组成的集群,配置:NameNode:CPU:Intel(R) Pentium(R) Dual CPU E2160 @ 1.80GHzsize: 1800MHzcapacity: 1800MHzwidth: 64 bitsclock: 200MHzMemory:size: 2GiBwidth: 64 bitsNet原创 2014-05-11 17:30:21 · 4033 阅读 · 1 评论 -
MapReduce:默认Counter的含义
原文地址:http://langyu.iteye.com/blog/1171091MapReduce Counter为提供我们一个窗口:观察MapReduce job运行期的各种细节数据。今年三月份期间,我曾经专注于MapReduce性能调优工作,是否优化的绝大多评估都是基于这些Counter的数值表现。MapReduce自带了许多默认Counter,可能有些朋友对它们有些疑问,现在我分析下这转载 2014-05-12 22:44:02 · 1125 阅读 · 0 评论 -
重写RecordReader和InputFormat实现单个文件不分片,整个分片作为一条记录处理。(倒排索引)
比较简单,直接上代码:原创 2014-05-12 16:00:02 · 2106 阅读 · 0 评论