大数据运算
砥砺前行的疯子
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HA on yarn的搭建流程及JAVA代码对HDFS上大数据的处理(附代码)
在HDFS-HA的基础上搭建:1.复制一份配置文件cp mapred-site.xml.template mapred-site.xml2.对etc/hadoop/mapred-site.xml添加classic经典的老版本 没有将资源调用和内存调用分开local本地客户端模拟进行yarn<.configuration><.property><.n...原创 2019-04-10 22:53:06 · 4389 阅读 · 0 评论 -
hadoop源码解析一步到位
YarnChild,由NodeManager通过脚本启动YarnChild的main方法中调用Task的run方法task可以是maptask也可以是reducetask163 taskFinal.run(job, umbilical); // run the task在MapTask中,run方法调用了它自己的runNewMapper方法784行MapTask调用了mapper的run...原创 2019-04-12 08:58:06 · 9172 阅读 · 0 评论 -
最经典的大数据案例解析(附代码)
首先我们来说说需求假设以上就是我们需要处理的数据,我们需要计算出每个月天气最热的两天。首先我们对自己提出几个问题1.怎么划分数据,怎么定义一组???2.考虑reduce的计算复杂度???3.能不能多个reduce???4.如何避免数据倾斜???5.如何自定义数据类型???----记录特点每年每个月温度最高2天1天多条记录怎么处理?----进一步思考年月分组温度升序...原创 2019-04-13 22:45:30 · 15201 阅读 · 0 评论
分享