
大数据面试
文章平均质量分 82
且听_风吟
你还年轻,去爱去恨去相信,去追去梦去后悔。生命就该浪费在美好的事物上,还有资本,别怕失败。
展开
-
大数据面试知识点分析(一)
为了保证效率和质量,每篇文章发布6个知识点,由简单及难,我们从HDFS开始:1)如何杀死一个jobhadoop job –list./hadoop job -kill job_201212111628_111662)删除hdfs上的/tmp/xxx目录hadoop dfs -rm /user/cl/temp/a.txthadoop dfs -rmr /user原创 2018-01-19 18:22:57 · 2197 阅读 · 4 评论 -
大数据面试题知识点分析(九)
为了保证效率和质量,每篇文章发布6个知识点,由简单及难,我们开始zookeeper:友情提示:本专栏涉及大数据面试题及相关知识点不同于大多数的网络复制文,是博主精心准备和总结的最新的面试及知识点,喜欢就订阅噢,后续还会开展hdfs源码解析,spark源码解析栏目,欢迎关注博客,大家一起学习!专栏:点击打开链接博客:点击打开链接1)zookeeper的本质是什么?它解决了哪些问题?ZooKeeper...原创 2018-03-13 17:47:19 · 1203 阅读 · 0 评论 -
大数据面试题知识点分析(八)
本篇博客列举几个笔试或面试常见的小案例,其实它们的解决方案很多都是类似的,主要考察的也是大数据技术处理数据的思想,下面让我们一起分析总结:1)海量日志数据,提取出某日访问百度次数最多的那个IP?算法思想:分而治之+Hash1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理;2.可以考虑采用“分而治之”的思想,按照IP地址的hash(ip)%1024,把海量IP日志分别存储到1...原创 2018-03-07 18:10:55 · 1034 阅读 · 0 评论 -
大数据面试题知识点分析(七)
本篇博客继续HIVE,将所有HIVE优化相关的内容深入清楚:hive 优化:1)Map的优化 • 增加map的个数: set mapred.map.tasks=10; • 减少map的个数(合并小文件): set mapred.max.split.size=100000000; set mapred.min.split.size.per.nod...原创 2018-03-07 10:05:07 · 1031 阅读 · 0 评论 -
大数据面试题知识点分析(六)
为了保证效率和质量,每篇文章发布6个知识点,由简单及难,我们继续HIVE:1)hive 支持 not in 吗?不支持,可以用left join 实现此功能。2)Hive 有哪些方式保存元数据,各有哪些优缺点?1.存储于内存数据库derby,此方法只能开启一个hive客户端,不推荐使用。2.存储于mysql数据库,可以多客户端连接,推荐使用。分为本地mysq原创 2018-01-25 15:30:16 · 2506 阅读 · 0 评论 -
大数据面试题知识点分析(五)
为了保证效率和质量,每篇文章发布6个知识点,由简单及难,我们继续Hbase的尾巴,并开始HIVE:1)怎样将mysql的数据导入到hbase中?A、一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入hbase时,会按照region分区情况,在集群内做数据的负载均衡。B、hbase 里面有这样一个hfileoutputformat类,他的实现可以将原创 2018-01-25 15:11:06 · 1743 阅读 · 0 评论 -
大数据面试题知识点分析(四)
为了保证效率和质量,每篇文章发布6个知识点,由简单及难,我们继续Hbase:1)hive 跟 hbase 的区别是?1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储2.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统,HBase是为了支持弥补Hadoop对实时操作的缺陷的项目 。3.想象你在原创 2018-01-24 17:18:46 · 1347 阅读 · 0 评论 -
大数据面试题知识点分析(三)
为了保证效率和质量,每篇文章发布6个知识点,由简单及难,下面我们开始Hbase:1)介绍一下 hbase 过滤器。HBase为筛选数据提供了一组过滤器,通过这个过滤器可以在HBase中的数据的多个维度(行,列,数据版本)上进行对数据的筛选操作,也就是说过滤器最终能够筛选的数据能够细化到具体的一个存储单元格上(由行键,列明,时间戳定位)。通常来说,通过行键,值来筛选数据的应用场景原创 2018-01-23 18:06:15 · 1272 阅读 · 0 评论 -
大数据面试题知识点分析(二)
为了保证效率和质量,每篇文章发布6个知识点,由简单及难,我们继续HDFS:1)hdfs原理,以及各个模块的职责Client:切分文件;访问或通过命令行管理HDFS;与NameNode交互,获取文件位置信息;与DataNode交互,读取和写入数据。 NameNode:Master节点,只有一个,管理HDFS的名称空间和数据块映射信息;配置副本策略;处理客户端请求。原创 2018-01-22 18:32:39 · 1408 阅读 · 1 评论 -
大数据面试题知识点分析(十)
为了保证效率和质量,每篇文章发布6个知识点,由简单及难,我们开始spark+kafka:一般情况下面试的时候只要涉及到实时计算或者大批量计算,都会涉及到kafka和spark的面试问题,两者一般是综合起来的的,因此我把他们放在一起进行总结,这一块的问题会比较多,将分不同纬度多次总结。友情提示:本专栏涉及大数据面试题及相关知识点不同于大多数的网络复制文,是博主精心准备和总结的最新的面试及知识...原创 2018-08-16 20:15:06 · 1567 阅读 · 3 评论