
大数据
风之子Fight
当你坚持不下去的时候坚持下去就是了
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据面试题——如何在大量数据中寻找唯一相同的两行数据
题目描述: 1T的文件,使用行储存,其中有唯一的两行重复,目前只有一台计算机,内存不足以容纳1T文件,比如是256M,128G,问如何使用单机寻找出这两行数据? 分析解答: 方法:分治法。 解题思路:对于大数据相关的算法题,分治法是一个非常好的方法。针对这一题来说,主要思路为:因为文件是按行储存的,我们可以一行一行的读取文件,当每读取到一行,取它的hashcode,可以根据实际可用内存的情况,确定...原创 2019-04-29 21:28:23 · 3199 阅读 · 0 评论 -
解决Hadoop运行jar包时一直卡在: INFO mapreduce.Job: Running job位置的问题
今天在Hadoop集群运行jar包时一直卡在INFO mapreduce.Job: Running job这个位置,于是上网查了一下,找到了一些解决方案: 下面是卡住都得位置 : 首先是在我在yarn-site.xml中加 <property> <name>yarn.nodemanager.resource.memory-mb</name> &...原创 2019-05-06 22:56:32 · 7928 阅读 · 13 评论 -
MapReduce经典小案例:寻找每个月温度最高的两天
案例:寻找每个月温度最高的两天 注意:文件里面包含日期相同的两天,取当天最高温度为当天温度 下面为给定文件: 2017-10-01 14:21:02 34c 2017-10-01 19:21:02 38c 2017-10-02 14:01:02 36c 2018-01-01 11:21:02 32c 2018-10-01 12:21:02 37c 2019-12-01 12:21:02 23c 2...原创 2019-05-07 20:51:46 · 1698 阅读 · 0 评论