- 博客(8)
- 收藏
- 关注
原创 Hive相关面试问题
1. group by和count(distinct)的区别首先,Hive的group by和count(distinct)都是去除重复的数据,某种程度上来说,两者产生的结果是一样的。可以一同使用 DISTINCT 和 COUNT 关键词,来计算非重复结果的数目。实例代码:select a,count(distinct b) from t group by aselect tt.a,co...
2019-07-07 17:42:03
1450
原创 MapReduce相关面试问题整理
1. 以Word Count为例, 描述下MapReduce的执行过程.Map阶段, 将每行的数据经过切分后, 得到<key, value>对, 每个切分出的单词为key, 1为value.Mapper对获得的键值对按key进行排序.Reduce阶段, 经过Shuffle整合Mapping阶段输出的相关记录, 汇总整合Shuffle阶段的值并返回单个输出.2. 对于MapRed...
2019-06-24 16:34:07
1692
原创 HDFS相关面试问题整理
1. HDFS的写流程a) hdfs客户端向namenode发送rpc请求.b) namenode检查文件是否已经存在, 创建者是否有权进行操作, 成功则会为文件创建记录, 反之客户端抛出异常.c) 客户端将文件切分成多个packets, 并在内部以数据队列形式管理packets. 然后客户端向namenode申请blocks, 通过选择合适的datanode列表来存放副本.d) 以pi...
2019-06-22 17:02:36
2244
原创 Hadoop中Shuffle过程的分步详解
shuffle流程图Shuffle概念系统执行排序, 将map输出作为输入传给reducer的过程被称为shuffle, 从很多方面看, shuffle是MapReduce的灵魂所在. 学习shuffle有利于我们理解MapReduce的工作机制, 优化MR程序.Map端的Shuffle要进行海量数据处理, 外存文件的I/O访问为成为一个制约系统性能的重要瓶颈. 而Hadoop在...
2019-06-14 09:57:16
957
原创 HDFS读流程解析(附中文翻译)
Hadoop HDFS Data Read OperationsHDFS读流程图i) Client opens the file it wishes to read by calling open() on the FileSystem object, which for HDFS is an instance of DistributedFileSystem.客户端打开文件, 并调用F...
2019-06-11 20:14:09
601
原创 HDFS写流程解析(附中文翻译)
HDFS Data Write Pipeline WorkflowHDFS的写流程图i) The HDFS client sends a create request on DistributedFileSystem APIs.hdfs客户端发送创建请求给DistributedFileSystem的api.ii) DistributedFileSystem makes an RPC ca...
2019-06-11 19:55:52
308
原创 scala实现归并排序
object MergeSort { def merge(l1: List[Int], l2: List[Int]):List[Int] =(l1, l2) match { case (Nil, _) => l2 case (_, Nil) => l1 case (h1::t1, h2::t2) => if(h1<h2) h1::m...
2019-06-11 19:44:01
645
原创 scala实现快速排序
最近在学习scala, 顺手一边学习一边写了个快排object QuickSort { def quicksort(list:List[Int]):List[Int]=list match{ case Nil => Nil case x::Nil => list case _ => val p=list.head val (...
2019-06-10 20:47:23
1312
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人