
大数据面试
大数据面试知识复习
StephenYYYou
咸鱼是湿垃圾还是干垃圾?
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark调度解析
transformation flatmap,先map再flat collect慎用 actions 宽窄依赖 只要是shuffle,就是宽依赖,spark根据算子来判断是宽依赖还是窄依赖 宽窄依赖是为了任务的切割 DAG优化:一个job会被切分为多个stage,碰到宽依赖就会切分一下 有几个pipeline就有几个task,stage2有4个task ...原创 2020-04-12 17:20:22 · 380 阅读 · 0 评论 -
从源码看HashMap和HashTable的区别
从源码看HashMap和HashTable的区别 继承的父类不同:HashMap继承是AbstractMap类,Hashtable继承的是Dictionary。 初始容量不同:HashMap的默认容量是16,而且规定了它的容量只能是2的整数次幂;Hashtable的默认容量是11,最小值是1,最大值为2的31次方-9. 扩容方式不同:HashMap扩容新容量=旧容量*2,Hashtable新容量=旧容量*2+1. 线程是否安全:HashMap是线程不安全的,Hashtable线程安全;后者的put方法使用原创 2020-04-03 21:44:23 · 258 阅读 · 0 评论 -
大数据面试(二)之常见SQL on Hadoop生态圈
Hive:将对应sql转化成执行引擎的作业:MapReduce/Spark/Tez Impala:得提供足够的内存 Presto:JD Drill:能够跨数据源,比如说连接HDFS和关系型数据库 Phoenix:HBase(基于RowKey) Spark SQL:去官网去看看定义 他们的MetaStore是一致的:框架之间共享元数据信息。 Hive on Spark: ...原创 2020-02-26 17:59:11 · 510 阅读 · 0 评论 -
大数据面试复习(一)之HDFS概况
HDFS架构概况 HDFS核心组件的职责 HDFS数据流程 HDFS写数据流程 1)blocksize=128/64/256,默认是128M 2)几个副本 3/2/1 配置在HDFS配置文件 client来完成将数据分成block的工作。 HDFS读数据流程 HDFS高可用 HA准备两个NN,一个active,一个standby(同步active ...原创 2020-02-19 16:21:38 · 223 阅读 · 0 评论