
Mapreduce
文章平均质量分 82
weixin_41734687
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hive 数据倾斜原因及解决
转载 添加链接描述???? Index什么是数据倾斜数据倾斜的原因Hadoop计算框架的特点优化的常用手段优化案例???? 什么是数据倾斜我们在用hive取数的时候,有的时候只是跑一个简单的join语句,但是却跑了很长的时间,有的时候我们会觉得是集群资源不够导致的,但是很大情况下就是出现了"数据倾斜"的情况。在了解数据倾斜之前,我们应该有一个常识,就是现实生活中的数据分布是不均匀的,俗话说"...转载 2019-11-07 18:42:22 · 1221 阅读 · 1 评论 -
Python Hadoop Mapreduce 实现Hadoop Streaming分组和二次排序
需求:公司给到一份全国各门店销售数据,要求:1.按门店市场分类,将同一市场的门店放到一起;2.将各家门店按销售额从大到小,再按利润从大到小排列一 需求一:按市场对门店进行分组分组(partition)Hadoop streaming框架默认情况下会以’/t’作为分隔符,将每行第一个’/t’之前的部分作为key,其余内容作为value,如果没有’/t’分隔符,则整行作为key;这个key/v...原创 2018-10-28 21:16:57 · 1390 阅读 · 0 评论 -
MapReduce 原理、过程详解与优化 Yarn Hdfs Mapreduce 三者联系
参考文档一 Mapreduce Yarn Hdfs三者联系(比喻有不恰当的地方,但更容易理解三者之间的关系)Mapreduce,Yarn,Hdfs三者之间的关系,可以用电脑来进行解释。大体可以理解为:windows系统电脑上的一个视频播放软件(mapreduce),通过windows操作系统(yarn)找到存在电脑硬盘(hdfs)上的电影,然后视频播放器播放电影Yarn 相当于电脑的操作...原创 2018-10-25 22:35:19 · 3335 阅读 · 3 评论 -
Python 玩转大数据 Mapreduce开发 wordcount
一 介绍MapReduce 是一种分布式编程模型,用于处理大规模的数据。用户主要通过指定一个 map 函数和一个 reduce 函数来处理一个基于key/value pair的数据集合,输出中间的基于key/value pair的数据集合;然后 再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。使用python写MapReduce的“诀窍”是利用Hadoop流的A...原创 2018-10-27 10:55:39 · 679 阅读 · 0 评论