
hadoop
defungo
这个作者很懒,什么都没留下…
展开
-
hadoop问题解决
1.ssh免密码访问配置失败 ssh-keygen -t rsa cd ~/.ssh/ cat id_rsa.pub >> authorized_keys chmod 600 authorized_keys 访问仍需密码 用root tail -f /var/log/secure tail -f /var/log/se...原创 2013-05-10 12:37:44 · 100 阅读 · 0 评论 -
重温Hadoop(1)--Mapredure
Mapreduce概念:一种分布式编程模型,在hadoop中用于负责mapreduce任务的是JobTracker,TaskTracker, Hadoop中只有一台JobTracker。 1.JobTracker:用于任务的管理和调度工作。 2.TaskTrack...2013-05-15 14:53:12 · 232 阅读 · 0 评论 -
重温Hadoop(2)-- MapReduce流程及partition
1.map(K1, V1) –> list (K2, V2) // 对输入数据进行抽取过滤排序等操作 2.combine(K2, list(V2)) –> list(K2, V2) // 为了减少reduce的输入,需要在map端对输出进行预处理,类似3.reduce。不是所有的reduce都在部分数据集上有效,比如求平均...原创 2013-05-16 10:25:59 · 145 阅读 · 0 评论 -
重温hadoop(3)--序列化
Hadoop的序列化机制特征:紧凑:带宽是hadoop集群中最稀缺的资源,一个紧凑的序列化机制可以充分利用带宽。快速:mapreduce会大量的使用序列化机制。因此,要尽可能减少序列化开销。可扩张:序列化机制需要可定制互操作:可以支持不同开发语言间的通信。 java本身的序列化,将要序列化的类,类签名、类的所有非暂态和非静态成员的值,以及所有的父类都要写入,导致序...原创 2013-06-04 16:12:13 · 123 阅读 · 0 评论 -
Hadoop重温(4)--ipc
依赖于Hadoop Writable类型的支持。Hadoop Writable接口要求每个实现类都得确保将本类的对象正确序列化(writeObject)与反序列化(readObject)。因此,Hadoop RPC使用Java动态代理与反射实现对象调用方式,客户端到服务器数据的序列化与反序列化由Hadoop框架或用户自己来实现,也就是数据组装是定制的。Hadoop IPC在org.apach...原创 2013-06-07 17:11:52 · 133 阅读 · 0 评论 -
(转)hadoop/mapred 优化方法
谭东的空间:http://thethethethethethe.spaces.live.com/default.aspx 从三个方面着手优化 :1. hadoop配置2. 设计mapred/job3. 代码级别.4. 改造hadoop一. conf/hadoop-site.xml配置.经验要求高, 特别需要结合实际情况.典型参数如复制因子,mapred.child.java.opts,mapred...原创 2013-06-25 16:42:03 · 117 阅读 · 0 评论 -
HDFS的基本概念
1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。2、元数据节点(Namenode)和数据节点(datanode)...原创 2013-02-22 11:45:48 · 134 阅读 · 0 评论