
大数据面试题
文章平均质量分 71
该专栏中包括大部分常见的面试题
pengda555
这个作者很懒,什么都没留下…
展开
-
大数据实时部分面试题
1、flume的组件有哪些?source组件,channel组件,sink组件2、sql怎么优化(1)、创建索引时,尽量避免全表扫描(2)、避免在索引上使用计算(3)、尽量使用参数化sql(4)、尽量将多条SQL语句压缩到一句sql中(5)、用where字句替换Having字句(6)、连接多个表时,使用表的别名(7)、尽量避免使用游标等等3、宽窄依赖窄依赖:父RDD的一个分区只能被子RDD的一个分区所依赖宽依赖:父RDD的一个分区会被子RDD的多个分区所依赖.原创 2021-11-26 20:04:50 · 418 阅读 · 0 评论 -
十四、Flink高频面试题
1简单介绍一下 FlinkFlink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务:DataSet API, 对静态数据进行批处理操作,将静态数据抽象成分布式的数据集,用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理,支持Java、Scala和Python。DataStream API...原创 2021-11-24 16:27:51 · 228 阅读 · 0 评论 -
五、Kafka高频面试题
1、Kafka架构生产者、Broker、消费者、ZK;注意:Zookeeper中保存Broker id和消费者offsets等信息,但是没有生产者信息。2、Kafka的机器数量Kafka机器数量=2*(峰值生产速度* 副本数/100)+13、副本数设定一般我们设置成2个或3个,很多企业设置为2个。副本的优势:提高可靠性;副本劣势:增加了网络IO传输4、Kafka压测...原创 2021-11-19 15:37:05 · 199 阅读 · 0 评论 -
三、Zookeeper高频面试题
1、选举机制半数机制:2n+1,安装奇数台10台服务器:3台20台服务器:5台100台服务器:11台台数多,好处:提高可靠性;坏处:影响通信延时2、常用命令ls、get、create、delete3、Paxos算法(扩展)注意:暂时先不用看。如果后期准备面今日头条,需要认真准备,其他公司几乎都不问。Paxos算法一种基于消息传递且具有高度容错特性的一致性算法。分布式系统中的节点通信存在两种模型:共享内存(Shared...原创 2021-11-18 19:20:16 · 1369 阅读 · 0 评论 -
8、Azkaban高频面试题
1、每天集群运行多少指标?每天跑100多个指标,有活动时跑200个左右。2、任务挂了怎么办?1)运行成功或者失败都会发邮件、发钉钉、集成自动打电话(项目中遇到的问题)2)最主要的解决方案就是重新跑。3)报警网站睿象云-用人工智能点亮传统运维 ...原创 2021-11-21 15:45:59 · 848 阅读 · 0 评论 -
十、Scala高频面试题
1、开发环境要求掌握必要的Scala开发环境搭建技能。2变量和数据类型掌握var和val的区别掌握数值类型(Byte、Short、Int、Long、Float、Double、Char)之间的转换关系3流程控制掌握if-else、for、while等必要的流程控制结构,掌握如何实现break、continue的功能。4函数式编程掌握高阶函数、匿名函数、函数柯里化、函数参数以及函数至简原则。...原创 2021-11-21 20:41:37 · 915 阅读 · 0 评论 -
七、Sqoop高频面试题
1、Sqoop参数/opt/module/sqoop/bin/sqoop import \--connect \--username \--password \--target-dir \--delete-target-dir \--num-mappers \--fields-terminated-by \--query ...原创 2021-11-21 15:29:56 · 3019 阅读 · 0 评论 -
二、hadoop高频面试题
1、Hadoop常用端口号 hadoop2.x Hadoop3.x 访问HDFS端口 50070 9870 访问MR执行情况端口 8088 8088 历史服务器 19888 19888 客户端访问集群端口 ...原创 2021-11-18 16:31:46 · 149 阅读 · 0 评论 -
十一、Spark Core & SQL高频面试题
1 Spark有几种部署方式?请分别简要论述1)Local:运行在一台机器上,通常是练手或者测试环境。2)Standalone:构建一个基于Mster+Slaves的资源调度集群,Spark任务提交给Master运行。是Spark自身的一个调度系统。3)Yarn:Spark客户端直接连接Yarn,不需要额外构建Spark集群。有yarn-client和yarn-cluster两种模式,主要区别在于:Driver程序的运行节点。4...原创 2021-11-22 16:32:42 · 396 阅读 · 0 评论 -
十三、数据倾斜
公司一:总用户量1000万,5台64G内存的服务器。公司二:总用户量10亿,1000台64G内存的服务器。1.公司一的数据分析师在做join的时候发生了数据倾斜,会导致有几百万用户的相关数据集中到了一台服务器上,几百万的用户数据,说大也不大,正常字段量的数据的话64G还是能轻松处理掉的。2.公司二的数据分析师在做join的时候也发生了数据倾斜,可能会有1个亿的用户相关数据集中到了一台机器上了(相信我,这很常见)。这时候一台机器就很难...原创 2021-11-24 16:10:41 · 167 阅读 · 0 评论 -
四、Flume高频面试题
1、Flume组成,Put事务,Take事务1)taildir source (1)断点续传、多目录 (2)哪个Flume版本产生的?Apache1.7、CDH1.6(3)没有断点续传功能时怎么做的?自定义(4)taildir挂了怎么办? 不会丢数:断点续传...原创 2021-11-18 19:47:33 · 359 阅读 · 0 评论 -
六、Hive高频面试题
1、Hive的架构Hive元数据默认存储在derby数据库,不支持多客户端访问,所以将元数据存储在MySQl,支持多客户端访问。2、Hive和数据库比较Hive和数据库除了拥有类似的查询语言,再无类似之处。1)数据存储位置Hive存储在HDFS。数据库将数据保存在块设备或者本地文件系统中。2)数据更新Hive中不建议对数据的改写。而数据库中的数据通常是需要经常进行修改...原创 2021-11-19 16:57:16 · 268 阅读 · 0 评论 -
九、Hbase高频面试题
1、HBase存储结构2、RowKey设计原则1)rowkey长度原则2)rowkey散列原则3)rowkey唯一原则3、RowKey如何设计1)生成随机数、hash、散列值2)字符串反转4、HBase的特点是什么1)大:一个表可以有数十亿行,上百万列;2)无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同...原创 2021-11-21 15:56:19 · 745 阅读 · 0 评论 -
十二、Spark Streaming高频面试题
1 Spark Streaming第一次运行不丢失数据kafka参数 auto.offset.reset 参数设置成earliest 从最初始偏移量开始消费数据2 Spark Streaming精准一次消费1、手动维护偏移量2、处理完业务数据后,再进行提交偏移量操作极端情况下,如在提交偏移量时断网或停电会造成spark程序第二次启动时重复消费问题,所以在涉及到金额或精确性非常高的场景会使用事物保证精准一次消费3 Spar...原创 2021-11-23 21:53:05 · 1243 阅读 · 0 评论 -
一、Linux&Shell高频面试题
1、Linux常用高级命令序号 命令 命令解释 1 top 查看内存 2 df -h 查看磁盘存储情况 3 iotop 查看磁盘IO读写 4 iotop -o 直接查看比较高的磁盘读写程序 5 netstat -tunlp | grep 端口号 查看端口占用情况 6 uptime 查看报告系统运行时长及平均负载 7 ps -aux 查看...原创 2021-11-18 09:46:23 · 246 阅读 · 0 评论