
求职面试
记录在求职面试过程中的一些心得体会。
司小幽
知行合一,学而思。
展开
-
《大数据工程师(开发)面试系列(2)》
1.HBase和Hive都是基于Hadoop,为什么Hive查询起来非常慢,但HBase不是?Hive是类SQL引擎,其查询都需要遍历整张表,跑MapReduce自然很慢,但HBase是一种NoSQL的列式数据库,基于Key/Value的存储格式,不需要像Hive一样遍历,自然在速度上,乃至写的性能上是相当之快的。相关参考文献:HIVE和HBASE区别2.通原创 2016-11-14 10:31:09 · 2206 阅读 · 0 评论 -
《大数据工程师(存储)面试系列(3)》
1.固态硬盘为什么会比机械硬盘快?固态硬盘为什么会比机械硬盘快2.闪存(flash)的实现原理?flash百度百科3.Python在爬取网页的时候用到的库?将网页中的,全部替换为.如何实现?网页中的图片如何爬取?①urllib②re.sub:③右键查看源码,找到图片的相应匹配规则(当时想的深了,想着图片的编码怎么在爬取的时原创 2016-11-16 18:33:03 · 1793 阅读 · 0 评论 -
《大数据(架构师)面试系列(5)》
1.数组与链表的区别是什么?线性表--数组和链表的区别链表和数组的区别在哪里?2.Scala函数式编程的特点?注意是Scalca函数编程这个特性的特点,类似特点的特点,而不是Scala的特点。查找资料如下:Scala同时又是函数式编程语言,函数可以独立存在,可以定义一个函数作为另一个函数的返回值,也可以接受函数作为函数的参数。这给组合函数带来了很大的便利。如何把原创 2016-11-16 20:01:45 · 5056 阅读 · 0 评论 -
大数据工程师(开发)面试系列(7)
MapReduce1. 不指定语言,写一个WordCount的MapReduce我:最近刚学了scala,并且就有scala版本的WordCount,刚好学以致用了一下: 补:至于java版本,虾皮博主的一篇文章讲解的非常细致: Hadoop集群(第6期)_WordCount运行详解2. 上述写的程序中.map((_,1))的输出结果是什么我:通过flatMap将其扁平化,而.map((_,1)原创 2017-03-19 22:08:17 · 11175 阅读 · 4 评论 -
大数据工程师(开发)面试系列(6)
由于其中一次谈到的内容比较少,所以本文是两次合并成一篇写的。1. Kylin如何优化我:①经常需要group By查询的维度顺序在先;②基数近1:1的字段选择joint维度;③lookup表尽量避免基数大,更多的可以查看博客 补:《Apache Kylin cube优化指南》2. Hive没有long类型你是怎么处理的?我:之前的项目,做的是Hive关联HBase外表,对于细节上的,比如类型转换原创 2017-03-19 19:51:09 · 1585 阅读 · 0 评论 -
大数据工程师(开发)面试系列(5)
1. Java的第三方模块你用过哪些?我:也没有刻意去记,所以也没说出来。 补:技术干货:十个非常有用的第三方Java开源库 细数一下,上述所列十个里,大致用过1/2。2. Python的第三方模块你用过哪些?我:爬虫所用urllib,urllib2 补:模块和包.那些让你相见恨晚的PYTHON第三方好用的模块儿和包?3. 你用你的程序调度Kylin以及承接数据失败怎么办?我:在调度之前有落原创 2017-03-19 17:26:06 · 1554 阅读 · 0 评论 -
大数据工程师(开发)面试系列(4)
1.谈一谈你之前是如何围绕Kylin框架进行工作的?我:其实在我的理解中,Kylin它首先是一个OLAP分析引擎,它是如此的轻量、因非侵入式又是如此的友好,所以更愿意将之前的工作定义为是拿Kylin这个神器去为现有的框架添加OLAP的功能,而不是去围着它转。 Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最原创 2017-03-19 16:02:17 · 2795 阅读 · 0 评论 -
大数据工程师(开发)面试系列(3)
1. 你觉得大数据处理技术分为几类?我:大致分为3类,Hadoop为代表的批处理;Impala,Hbase为代表的基于历史数据的交互式处理;Storm,Spark,Flink为代表的流式处理。2. Linux系统命令你熟悉的有哪些?我:cat,tree….etc3. 说说你眼里的数据开发究竟是一种什么样的岗位?我:当时刚好看完ETL和Storm系列的视频,所以就学习的这两系列视频对数据开发这个职能的原创 2017-03-19 14:49:10 · 1987 阅读 · 0 评论 -
大数据工程师(ETL)面试系列(1)
1. 你觉得Spark和Hadoop的区别是什么,请简要说一说?我:Hadoop适合离线分析,是批处理;Spark适合实时分析,是近实时流,微批处理。2. 你觉得Python和Java在使用起来,有什么区别?我:其实自己在平时使用的时候,并没有过度割裂开这两种,因为毕竟自己是结果导向所以无论Python的缩进格式还是Java的要加逗号,最后可以实现我的需求就可以了。 补:如今,再来审视这个问题,会原创 2017-03-19 14:19:12 · 25016 阅读 · 1 评论 -
《大数据工程师(运维)面试系列(4)》
1.MapReduce解决缺值问题?一张非常宽,且数据量大的表,被分割成若干个hdfs上的小文件,其中有一个字段,是自增的(但分布的文件中的这个字段值是乱序的),举个栗子,比如:1,2,3。现在并不知道究竟是哪几个值缺失,请你用MapReduce的方式将那些缺失的值找到?其实这是MapReduce的典型应用场景之一——缺值查找。整体的一个思路是,先将这些乱序的值排好序,然后原创 2016-11-16 19:36:24 · 9658 阅读 · 0 评论 -
《大数据工程师(开发)面试系列(1)》
1.LVS和HAProxy相比,它的缺点是什么?之前,的确是用LVS进行过MySQL集群的负载均衡,对HAProxy也有过了解,但是将这两者放在眼前进行比较,还真没试着了解过。面试中出现了这么一题,面试官给予的答案是LVS的配置相当繁琐,后来查找了相关资料,对这两种负载均衡方案有了更进一步的了解。LVS的负载均衡性能之强悍已经达到硬件负载均衡的F5的百分之60了,而HAproxy的负载均衡和N原创 2016-11-13 15:12:07 · 4793 阅读 · 5 评论