
大数据面试题
冥想者-定
缘起性空
展开
-
面试业务
1、茄子的hive语句有哪些?a:当日传输图片top200b:当日传输歌曲top200c:当日传输文件top200d:当日各种国家启动次数排名e:当日不同版本的启动次数分布转载 2016-06-23 02:13:32 · 462 阅读 · 0 评论 -
Hadoop 面试题(一),hadoop面试题(9)
自己收集整理面试题以及答案,鉴于没有什么标准的答案,如有异议之处还请赐教。一、内部表和外部表的区别:1.在创建表的时候,导入数据到外部表,数据并没有移动到自己的数据仓库下,而在自己创建表指定的路径下,而对应于内部表数据是移动到自己的数据仓库下的。2.在删除表的时候,hive 会将内部表的元数据和数据全部删除,而外部表仅仅只是删除元数据,数据并没有删除。二、Hbase转载 2016-06-20 10:18:25 · 771 阅读 · 0 评论 -
自己整理的hadoop面试题(10)
1.简要的描述一下如何安装一个apache开原版的hadoop,无需列出完整步骤。1.创建hadoop用户.2.setup修改IP.3.安装javaJdk,并且修改etc/profile文件,配置java的环境变量.4.修改host的文件域名5.安装SSH免密码通信。6.解压hadoop包.7配置conf文件下的 hadoop-env.sh.core-site.sh转载 2016-06-20 10:19:40 · 1529 阅读 · 0 评论 -
hadoop、大数据面试题(11) 比较好
1、hdfs原理,以及各个模块的职责2、mr的工作原理3、map方法是如何调用reduce方法的4、shell如何判断文件是否存在,如果不存在该如何处理?5、fsimage和edit的区别?6、hadoop1和hadoop2的区别?笔试:1、hdfs中的block默认保存几份?2、哪个程序通常与nn在一个节点启动?并做分析3、转载 2016-06-20 10:20:33 · 1201 阅读 · 0 评论 -
hadoop、大数据面试题(12)
1、hdfs原理,以及各个模块的职责2、mr的工作原理3、map方法是如何调用reduce方法的4、shell如何判断文件是否存在,如果不存在该如何处理?5、fsimage和edit的区别?6、hadoop1和hadoop2的区别?笔试:1、hdfs中的block默认保存几份?2、哪个程序通常与nn在一个节点启动?并做分析3、转载 2016-06-20 10:21:41 · 1383 阅读 · 0 评论 -
hadoop面试题整理(二)(13)
1、Hive内部表和外部表的区别?1) 在导入数据到外部表,数据并没有移动到自己的数据仓库目录下,也就是说外部表中的数据并不是由它自己来管理的!而内部表则不一样;2) 在删除内部表的时候,Hive将会把属于内部表的元数据和数据全部删掉;而删除外部表的时候,Hive仅仅删除外部表的元数据,数据是不会删除的!那么,应该如何选择使用哪种表呢?在大多数情况没有太多的区别,因此选择只转载 2016-06-20 10:22:41 · 537 阅读 · 0 评论 -
大数据分析面试题(13)
--------------------------------------------简洁扼要的简历简历整体感觉好,用简明扼要的语言描述自己的技术特点,项目描述准确项目经验编写要切合实际,做到熟练于心面试礼仪最基本的面试礼仪,穿着落落大方,言行举止得当。面试题分享1、Java基础(笔试较多),为多线程,集合操作,以及最基础的Java知识。考察SQL功底,多表关联查询问转载 2016-06-20 10:27:50 · 1809 阅读 · 0 评论 -
hadoop面试题(14)
有几个问题想问,是网上看到的面试题,自己也不知道怎么解1.利用MapReduce对比两个文件的差异(mapreduce可以记录数据时来自哪个文件的吗?)2.利用MapReduce提高分析数据的精确度(地图软件)3.MapReduce常见算法8 三个datanode 当有一个datanode出现错误 会怎样9 sqoop在导入数据到mysql中,如何让数据不重复导入?如果存在数据转载 2016-06-20 10:28:38 · 1101 阅读 · 0 评论 -
hadoop面试题,请大家贡献(15)
我相信论坛里很多人都去面试hadoop啦,我也面试了几家,现在把面试题写出来,供分享。1 hive hdfs,map/reduce,hbase的关系是什么? hbase的最小块是多少?2 hbase的主件有哪些? 流程是什么?3 你在搭建以及应用hadoop的时候,都遇到了什么问题?其实感觉他们问题的还是hadoop1.x的基础上,到现在为止没有遇到hadoop2.x的转载 2016-06-20 10:30:11 · 575 阅读 · 0 评论 -
大数据技术Hadoop面试题,看看你能答对多少?(16)
1. 下面哪个程序负责 HDFS 数据存储。a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker答案C datanode2. HDfS 中的 block 默认保存几份?a)3 份 b)2 份c)1 份d)不确定答案A默认3分3. 下列哪个程序通常与 NameNode 在一转载 2016-06-20 10:40:51 · 1874 阅读 · 0 评论 -
Spark 和hadoop的一些面试题(准备)
Spark转载 2016-06-03 14:55:16 · 23341 阅读 · 2 评论 -
面试必备
1、 linux 命令 awk sed 命令 会用2、spark优化 3、mapreduce 原理转载 2016-11-07 17:02:47 · 451 阅读 · 0 评论 -
hbase面试题汇总(8)
先收藏,后面一点点汇总添加1、一个Hadoop环境,整合了Hbase和Hive,是否有必要给HDFS和Hbase都分别配置压缩策略?请给出对压缩策略的建议。2、Hadoop和Hbase等组件会互相竞争资源,如果需要开发一个调度模块协调这种竞争,请给出自己的思路(简述)3、简述Hbase性能优化的思路。4、简述Hbase filter的实现原理是什么?结合转载 2016-06-20 10:17:20 · 4110 阅读 · 0 评论 -
HBase基础的几个关键点--大概可能是面试题(7)
HBase基础的几个关键点--大概可能是面试题1. Region的rowkey范围是开区间还是闭区间?描述一下2. Scan的rowkey范围是开区间还是闭区间?描述一下3. HTablePool线程安全么?如果线程安全,为什么?如果线程不安全,有什么影响?4. 下面的代码有没有问题 publ转载 2016-06-20 10:13:02 · 2269 阅读 · 0 评论 -
hbase面试题(6)
1. HBase来源于哪篇博文? CA The Google File SystemB MapReduceC BigTableD Chubby2. 下面对HBase的描述哪些是正确的? B、C、DA 不是开源的B 是面向列的C 是分布式的转载 2016-06-20 10:12:23 · 6719 阅读 · 0 评论 -
面试必备
1、多线程2、jvm3、并发4、还有锁、读写锁、读写分离 等等5、多线程写一个生产者消费问队列转载 2016-06-26 16:26:46 · 502 阅读 · 0 评论 -
面试技术总结
1、spark 下面对RDD的五个特性进行解释:1、有一个分片列表。就是能被切分,和hadoop一样的,能够切分的数据才能并行计算。 2、有一个函数计算每一个分片,这里指的是下面会提到的compute函数。 3、对其他的RDD的依赖列表,依赖还具体分为宽依赖和窄依赖,但并不是所有的RDD都有依赖。 4、可选:key-value型的RDD是根据哈希来分区的转载 2016-06-26 23:10:06 · 839 阅读 · 0 评论 -
各个公司面试总结
1、jd 还是转载 2016-06-29 12:12:36 · 967 阅读 · 0 评论 -
Hive 【分组topk 有用的】
F8EFCB6EFD5DFC35E8FEE5B59A7CFD65_9 113D0EEDE67-8385-4B53-BF41-15DA2FA3A8E6 21F8EFCB6EFD5DFC35E8FEE5B59A7CFD65_9 5756B935FC-94D0-41D4-A051-496A49026A0D 21F8EFCB6EFD5DFC35E8FEE5B59A7CFD65_9转载 2016-07-01 17:03:05 · 1132 阅读 · 0 评论 -
Spark 和hadoop的一些面试题2(准备)
1、 map的数量是什么决定的, reduce的数量是什么决定的 mapreduce的中间发生了什么 http://langyu.iteye.com/blog/992916 请用实例举例1、map的数量怎么决定:splitSize = max (minSize, min(goalSize, dfs.block.size))http://blog.转载 2016-06-16 17:14:08 · 7165 阅读 · 0 评论 -
Spark 和hadoop的一些面试题3(准备)
1、TCP协议中的三次握手和四次挥手(图解)懒得讲,太复杂了,没有意思2、探索 ConcurrentHashMap 高并发性的实现机制转载 2016-06-16 18:16:53 · 914 阅读 · 0 评论 -
hbase的面试(1)
先收藏,后面一点点汇总添加1、一个Hadoop环境,整合了Hbase和Hive,是否有必要给HDFS和Hbase都分别配置压缩策略?请给出对压缩策略的建议。2、Hadoop和Hbase等组件会互相竞争资源,如果需要开发一个调度模块协调这种竞争,请给出自己的思路(简述)3、简述Hbase性能优化的思路。4、简述Hbase filter的实现原理是什么?结合实际项目经验,写转载 2016-06-20 10:00:19 · 2698 阅读 · 0 评论 -
Hadoop 面试题之Hbase(2)
Hadoop 面试题之九 16.Hbase 的rowkey 怎么创建比较好?列族怎么创建比较好?答:19.Hbase 内部是什么机制?答: 73.hbase 写数据的原理是什么?答:75.hbase宕机如何处理?答:144. 如果让你设计,你觉得一个分布式文件系统应该如何设计,考虑哪方面转载 2016-06-20 10:04:39 · 3854 阅读 · 1 评论 -
Hadoop 面试题之storm (3)
Hadoop 面试题之八 355.metaq 消息队列 zookeeper 集群 storm集群(包括 zeromq,jzmq,和 storm 本身)就可以完成对商城推荐系统功能吗?还有其他的中间件?356.storm怎么完成对单词的计数?(个人看完storm 后一直都认为他是流处理,好像没有积攒数据的能力,都是处理完之后直接分发给下一个组件)357.storm 其他的一些面试经常转载 2016-06-20 10:05:05 · 8866 阅读 · 0 评论 -
Hadoop 面试题 之Hive(4)
1.Hive 有哪些方式保存元数据,各有哪些特点。 15. Hive内部表和外部表的区别23.hive底层与数据库交互原理Hive的Hql语句掌握情况?36.使用Hive或自定义mr实现如下逻辑:product_no lac_id moment start_time user_id county_id staytime city_id 134291000转载 2016-06-20 10:07:01 · 7409 阅读 · 0 评论 -
面试宝典里看到一道题,希望老师们帮忙解答一下
某个目录下有两个文件a.txt和b.txt.文件格式为(ip username),例如:a.txt210.121.123.12 zhangsan34.23.56.78 lisi11.56.56.72 wangerb.txt58.23.53.132 liuqi34.23.56.78 libaa.txt,b.txt 中至少 100 万行,用 linux命令行转载 2016-06-21 10:30:24 · 956 阅读 · 0 评论 -
Hadoop 之面试题(5)
请简述hadoop怎样实现二级排序.你认为用Java,Streaming,pipe 方式开发map/reduce,各有哪些优缺点:6. 请列出在你以前工作中所使用过的开发map /reduce的语言java:scala:python:shell:7.当前日志采样格式为a,b,c,db,b,f,ea,a,c,f请用最熟悉的语言编写一个map/r转载 2016-06-20 10:10:14 · 3397 阅读 · 0 评论 -
阿里电话面试
1/http协议 了解吗? 头里面有什么字段2/ 线程池, java的有哪些区别3/ hbase 2级索引4/ 麒麟原理5/ 留存计算6/你擅长的技术7/转载 2017-04-21 15:48:06 · 1346 阅读 · 0 评论