上海小公司大数据面试题汇总(万字干货)(建议收藏)

这篇博客汇总了上海小公司在大数据面试中的常见问题,包括东软集团、池鹜公司、平安普惠等多个公司的面试经历。涉及到的技术点有HBase的特点与优化、Hive的窗口函数、Redis哨兵模式、Java内存模型、Spark的Shuffle过程、Zookeeper应用以及SQL优化等,涵盖了从基础概念到具体应用的多个方面。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.东软集团架构师电话面试二十分钟:

1.1.hbase有什么特点,他的优缺点:

海量存储,列式存储,高并发,稀疏(列的灵活性,列族中可以指定任意多的列,在列数据为空的情况下,是不会占用存储空间的),高可用(WAL解决高可用,瞬间写入量)

2.单一RowKey固有的局限性决定了它不可能有效地支持多条件查询,不支持SQL语句

1.1.3hbase的过滤器说几个及其作用:

比较运算符(less,greater_or_equal,NO_OP),比较器(BinaryComparator,BitComparator,NullComparator)。

比较过滤器:

rowfilter,familyfilter,qualifierfilter,valuefilter,timestampsfilter,

Filter rowFilter = new RowFilter(CompareOp.GREATER, newBinaryComparator("95007".getBytes()));

2.专用过滤器:SingleColumnValueFilter -会返回满足条件的整行,单列值排除器 SingleColumnValueExcludeFilter ,前缀过滤器 PrefixFilter----针对行键,列前缀过滤器 ColumnPrefixFilter,分页过滤器 PageFilter

1.2.hive表的优化:怎么解决数据倾斜:key分布不均匀,数据本身,sql语句本身容易引起倾斜(goupbykey,join,distinct count)

groupbykey引起的:参数调优:set hive.groupby.skewindata=true;生成的查询计划会有两个MRJob

采用sum() group by的方式来替换count(distinct)完成计算

1.2hive有一张小表明细表,一张超级大的表join,怎么解决这种容易引起数据倾斜?

1.3.hive表之间有父子依赖关系,几十张表,你是如何处理的?

1.4.sqoop给了我一个错误的引导:说是sqoop收集数据。反怼了他。

1.5.Redis的哨兵模式:自己挖的坑,自己踩。

1.6其他的简历方面的也问了不少,没啥特别的说的。

 

 

2.池鹜公司架构师电话面试十五分钟:

1.简单介绍自己

2.hive的窗口函数:哪几种?3;每个区别,就是每种的作用;row_number ,rank区别

3.hive的sql语句牛逼吗?写过多少的,

4.我们现在有十个部门,每个部门人员都有绩效评分,怎么搞出每个部门的前三个?重要的来了,简单给我说出一下使用那些关键字,group by? topN?low!  窗口排序函数教你做人dense_rank over()!

5.data warehouse   hadoop这些组件ETl之后都是给数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值