hadoop join操作类似于sql中的功能,就是对多表进行取子集并合并一起。其中有很多工具已经可用,如pig,hive,cascading.
map端联接
reduce端联接
同样,就 是联接处理时在reduce端。那么有哪些步骤呢?(讨厌原书的翻译者把它译作几种方法!)
1.由于在reduce端处理,必须会考虑到多输入问题,即多表。于是MultiInputs必须的;
2.排序,分组。因为先排序,这样在处理时就可以为分组服务了,而分组是最終目标,即将相同key所附属的values连接起来。
由于书本上没有说明排序,搞得我以为按它说的直接使用secondary sort就可以了。这样是错误的。
see also
本文深入探讨了HadoopJoin操作在大数据处理中的应用,特别关注了Map端联接与Reduce端联接的过程。文章详细介绍了联接处理时在reduce端的步骤,包括MultiInputs的必要性、排序与分组的重要性,以及如何避免常见的误解,例如误以为直接使用secondarysort即可完成排序。同时,文章提供了关于Hadoop排序的简介,帮助读者全面理解这一技术细节。
953

被折叠的 条评论
为什么被折叠?



