
hadoop mapred
文章平均质量分 91
G7N3F
呆
展开
-
kerberos学习
规划 服务端 一般是一台机器 这里是cdh3 -配置文件 krb5.conf -kdc.conf -kadm5.acl 匹配这个规则的账户有所有权限 ,下文为账户格式解释: instance 一般是主机名hostname,admin/admin@ITCAST.CN 是特殊的管理员 所以是admin不是hostname -创建针对relam的database 创建db后得到这4个文件 -登入后台 ,在...原创 2022-03-22 23:11:18 · 2734 阅读 · 0 评论 -
普通表的Join 三种算法(join 一) 嵌套循环Join(Nested Loops Join)、排序合并Join(Sort-Merge Join)和哈希Join(Hash Join)
refer to http://mysun.iteye.com/blog/1748473 通过Map-Reduce实现Join系列之一 本系列的开篇在提到使用Map-Reduce实现Join之前,先来看看目前在数据库中应用比较广泛和流行的集中Join算法。它们分别是嵌套循环Join(Nested Loops Join)、排序合并Join(Sort-Merge Join)和哈希Join(转载 2016-01-18 16:58:32 · 4872 阅读 · 1 评论 -
hadoop 处理小文件 方式TBD
1.如果hdfs系统里都是小文件,每个mapper 平均只会处理极端的时间,那么这显然调度那么多map去处理如此小文件 是一种浪费,这时可以采用CombineFileInputFormat,一个map读取多个小文件 2. 设置离线的merge 任务,或者前置,或者 如odps red后,会判断输出文件的大小数量,如果满足条件则启动merge任务,将小文件合并起来, (常用的文件格式 RCFILE原创 2016-01-27 17:13:07 · 609 阅读 · 0 评论 -
浅谈hadoop map过程,以及一些调优
每次map 将key val 写到一个writebuff wb中,wb里有个spill值(就是个wb 的空间比例),每当达到spill值, 就会输出这段spill(default 100m),输出前会将spill的内容在内存中按 partition groupby,且 sort by key。 eg: 当spill 输出时,会按照对多个已排序文件 做多路并归 merge 说下merg原创 2016-01-20 17:49:32 · 1463 阅读 · 0 评论 -
hadoop1 rpc
refer to http://blog.youkuaiyun.com/historyasamirror/article/details/6159248 上篇说了半天,却回避了一个重要的问题:为什么要用异步呢,它有什么样的好处?坦率的说,我对这点的认识不是太深刻(套句俗语,只可意会,不可言传)。还是举个例子吧: 比如Client向Server发送一个request,Server收到后需要100转载 2016-02-02 16:33:10 · 535 阅读 · 0 评论 -
Map-Reduce实现Join 算法(mapreduce侧连接 maponly 连接 map bloomfilter reduce连接) (join二)
refer to http://mysun.iteye.com/blog/1748480 参考以下文章,谈谈如果我自己设计的mapred join 和 maponly join 1.首先mapred join ,map的产物是 key,val (key就是join on的条件eg t1.id = t2.id),val中包含 tag即来自哪个文件or表源 和 实际行中的内容 注:这原创 2016-01-19 17:30:05 · 1608 阅读 · 0 评论