大数据学习笔记
Running-小猛
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive中关于分区表的概念理解以及相关操作解释
网上有篇关于hive的partition的使用讲解的比较好,转载了: 一、背景 1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。 2、分区表指的是在创建表时指定的partition的分区空间。 3、如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned ...转载 2018-09-20 21:49:57 · 1320 阅读 · 0 评论 -
Hive中的分桶概念的学习以及示例分析学习
我们学习一下分桶表,其实分区和分桶这两个概念对于初学者来说是比较难理解的。但对于理解了的人来说,发现又是如此简单。 我们先建立一个分桶表,并尝试直接上传一个数据 create table student4(sno int,sname string,sex string,sage int, sdept string) clustered by(sno) into 3 buckets ro...转载 2018-09-20 21:58:16 · 340 阅读 · 0 评论 -
大数据相关面试题整理-带答案
1、fsimage和edit的区别? 大家都知道namenode与secondary namenode 的关系,当他们要进行数据同步时叫做checkpoint时就用到了fsimage与edit,fsimage是保存最新的元数据的信息,当fsimage数据到一定的大小事会去生成一个新的文件来保存元数据的信息,这个新的文件就是edit,edit会回滚最新的数据。2、列举几个配置文件优化? --发挥...转载 2018-12-18 11:00:58 · 562 阅读 · 0 评论 -
MapReduce编写实现wordcount词频统计
首先编写WordCountDriver: package com.jym.hadoop.mr.demo; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.ha...原创 2019-03-25 08:51:24 · 4237 阅读 · 1 评论 -
MapReduce实现倒排索引
分为两步进行 第一步: package com.jym.hadoop.mr.inverindex; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoo...原创 2019-03-25 10:54:46 · 3184 阅读 · 0 评论 -
解决MapReduce中出现的Reduce端数据倾斜的问题
数据倾斜的问题其实就是map端输出的数据分发到reduce端不均匀,使得在reduce端有的reducer处理的数据量过大,有的reducer处理的数据量过少,造成数据倾斜于一方。 解决方法是在map端进行——》map side join操作 代码如下: package com.jym.hadoop.mr.mapsidejoin; import java.io.Buf...原创 2019-03-25 15:16:13 · 888 阅读 · 0 评论 -
MapReduce程序中在reduce端进行join
合并两个表的数据: 代码如下所示: RJoin 类实现map函数和reduce函数,并进行数据的整合处理 package com.jym.hadoop.mr.rjoin; import java.io.IOException; import java.lang.reflect.InvocationTargetException; import java....原创 2019-03-25 16:53:37 · 349 阅读 · 0 评论
分享