
---- 面试总结
大数据技术栈面试总结
云 祁
Focus BigData,专注于大数据技术领域的知识分享。
展开
-
2020 BAT大厂数据挖掘面试经验:“高频面经”之数据结构与算法篇
目录1.什么是链表、队列、堆栈、树图?2.删除链表中重复的节点(剑指offer 83)3.两数相加(Leetcode 2)4.反转链表、环形链表、合并链表5.创建包含min函数的栈6.二叉树的最大(最小)树深7.二叉树的遍历8.通过前序和中序推后序(重建二叉树)9.二叉树的最近公共祖先(leetcode 236)10.电话号码的字母组合(leetcode 17)11.求1+2...转载 2020-03-19 13:06:30 · 1433 阅读 · 0 评论 -
2020 BAT大厂数据分析面试经验:“高频面经”之数据分析篇
目录1.Mysql中索引是什么?建立索引的目的?2.sql语句执行顺序?3.数据库与数据仓库的区别?4.OLTP和OLAP的区别?5.行存储和列存储的区别?6.Hive执行流程?7.Hive HDFS HBase区别?8.数仓中ODS、DW、DM概念及区别?9.窗口函数是什么?实现原理?10.数仓中维度建模含义?有哪几种模式?11.Hive数据倾斜表现、原因及处理?12.用...转载 2020-03-18 19:57:49 · 2178 阅读 · 0 评论 -
2020 BAT大厂数据开发面试经验:“高频面经”之大数据研发篇
目录1.linux常用命令2.Java虚拟机、垃圾回收机制3.TCP “三次握手”、 “四次挥手4.大数据常见组件5.HDFS存储机制6.MapReduce基本流程7.Hadoop Shffule原理8.Hadoop常用命令9.Hadoop优化10.Hadoop分片、分区11.Hive常用高阶命令12.Redis特性13.Redis、传统数据库、HBase、Hive区别...转载 2020-03-18 19:50:54 · 2173 阅读 · 2 评论 -
【Spark 调优】Spark 开发调优的十大原则
Spark的调优是面试或者笔试考察的重点!原创 2020-02-29 17:03:04 · 1528 阅读 · 2 评论 -
【大数据优化】(一)HDFS 上小文件优化
HDFS 小文件优化方法1) HDFS 小文件弊端: HDFS 上每个文件都要在namenode 上建立一个索引,这个索引的大小约为150byte,这样当小文件比较多的时候,就会产生很多的索引文件,一方面会大量占用namenode 的内存空间,另一方面就是索引文件过大是的索引速度变慢。2) 解决的方式:(1)Hadoop 本身提供了一些文...原创 2020-03-01 17:53:17 · 1252 阅读 · 0 评论 -
【大数据优化】(二)MapReduce 优化方法
MapReduce跑的慢的原因(☆☆☆☆☆)一、Mapreduce 程序效率的瓶颈在于两点:1) 计算机性能CPU、内存、磁盘健康、网络2) I/O 操作优化(1) 数据倾斜(2) map 和reduce 数设置不合理(3) reduce 等待过久(4) 小文件过多(5) 大量的不可分块的超大文件(6) spill 次数过多(7) merge 次数过多等。二、MapRedu...原创 2020-03-01 22:19:24 · 1366 阅读 · 2 评论 -
【大数据面试题】(一)Hadoop 相关面试题总结
1.MapTask并行机度是由什么决定的?由切片数量决定的。2.MR是干什么的?MR将用户编写的业务逻辑代码和自带的默认组件结合起来组成一个完整的分布式应用程序...原创 2020-01-19 17:14:23 · 5590 阅读 · 0 评论 -
【大数据面试题】(二)Hive 相关面试题总结
文章目录1、Hive 表关联查询,如何解决数据倾斜的问题?2、请谈一下 Hive 的特点,Hive 和 RDBMS 有什么异同?3、请说明 hive 中 Sort By,Order By,Cluster By,Distrbute By各代表什么意思?4、Hive 有哪些方式保存元数据,各有哪些特点?5、Hive 内部表和外部表的区别?6、Hive 的 HSQL 转换为 MapReduce 的过程?...原创 2020-01-21 00:00:17 · 2205 阅读 · 0 评论 -
【大数据面试题】(三)Hive 基础知识及优化总结
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Metastore (hive元数据) Hive将元数据存储在数据库中,比如mysql 、derby。Hive中的元数据包括表的名称,表的列和分区及其属性,表的数据所在的目录。Hive数据存储在HDFS,大部分的查询...原创 2020-01-23 00:05:47 · 2398 阅读 · 0 评论 -
【大数据面试题】(四)HBase 相关面试题总结
文章目录一、Hbase是什么?二、HBase 的特点是什么?三、HBase 和 Hive 的区别?1)两者是什么?2)两者的特点3)两者的限制4)两者的应用场景5)总结四、HBase 适用于怎样的情景?五、描述 HBase 的 rowKey 的设计原则?1) Rowkey 长度原则2)Rowkey 散列原则3)Rowkey 唯一原则六、描述HBase 中scan 和get 的功能以及实现的异同?七...原创 2020-02-01 01:21:50 · 3951 阅读 · 0 评论 -
【大数据面试题】(五)Spark 相关面试题总结
文章目录一、spark中的RDD是什么,有哪些特性?二、概述一下spark中的常用算子区别(map,mapPartitions,foreach,foreachPatition)?三、谈谈spark中的宽窄依赖?四、spark中如何划分stage?五、RDD缓存?六、driver 的功能是什么?七、Spark master 使用zookeeper 进行HA 的,有哪些元数据保存在Zookeeper?...原创 2020-02-01 21:17:40 · 1612 阅读 · 0 评论 -
【大数据面试题】(六)Flume 相关面试题总结
文章目录一、Flume 采集数据会丢失吗?二、Flume 与 Kafka 的选取?三、数据怎么采集到 Kafka,实现方式?四、flume 管道内存,flume 宕机了数据丢失怎么解决?五、flume 和 kafka 采集日志区别,采集日志时中间停了,怎么记录之前的日志?六、flume 有哪些组件,flume 的 source、channel、sink 具体是做什么的?七、为什么使用Flume?八...原创 2020-02-09 12:35:48 · 2884 阅读 · 0 评论 -
【大数据面试题】(七)Kafka 相关面试题总结
文章目录一、请说明什么是Apache Kafka?二、Kafka的设计是什么样的呢?三、请说明什么是传统的消息传递方法?四、请说明Kafka相对传统技术有什么优势?五、在 Kafka 中 broker 的意义是什么?六、什么是broker?作用是什么?七、Kafka服务器能接收到的最大信息是多少?八、解释Kafka的Zookeeper是什么?我们可以在没有Zookeeper的情况下使用Kafka吗...原创 2020-02-16 15:43:42 · 1981 阅读 · 2 评论 -
【大数据面试题】(八)Spark 相关面试题
1.spark中的RDD是什么,有哪些特性?答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合Dataset:就是一个集合,用于存放数据的Destributed:分布式,可以并行在集群计算Resilient:表示弹性的,弹性表示1.RDD中的数据可以存储在内存或者...原创 2020-02-29 16:59:33 · 28811 阅读 · 2 评论 -
【Flume】(四)Flume 企业真实面试经验
文章目录一、你是如何实现 Flume 数据传输的监控的二、Flume 的 Source,Sink,Channel 的作用?你们 Source 是什么类型?三、Flume 的 Channel Selectors四、Flume 参数调优五、Flume 的事务机制六、Flume 采集数据会丢失吗?一、你是如何实现 Flume 数据传输的监控的使用第三方框架 Ganglia 实时监控 Flume。二...原创 2020-02-16 19:41:59 · 1675 阅读 · 4 评论 -
【Reids】Redis 面试题
文章目录概述什么是RedisRedis有哪些优缺点为什么要用 Redis /为什么要用缓存为什么要用 Redis 而不用 map/guava 做缓存?Redis为什么这么快数据类型Redis有哪些数据类型Redis的应用场景持久化什么是Redis持久化?Redis 的持久化机制是什么?各自的优缺点?如何选择合适的持久化方式Redis持久化数据和缓存怎么做扩容?过期键的删除策略Redis的过期键的删...转载 2020-03-08 13:17:53 · 1543 阅读 · 0 评论