
面试准备
忆山
从事大数据开发工作
1.高级大数据开发工程师spark、flink、kafka、hive、hbase等
2.搜索服务开发Elasticsearch
等相关大数据工作
展开
-
Flink面试题
关于spark和flink我可能会问这20个问题,当然并不是说简单回答一下就可以了,每一个题都可以引申很多问题,拿第一个问题来说,里面还有很多东西,比如spark的依赖关系是存在什么地方?RDD的宽窄依赖划分等? 因为你如果什么问题都问,问三天三夜都问不完,所以一定有针对性,而且后面一定会有模拟场景现场编程的问题,因为上面的问题都是偏原理的,你不会你也可以背下来,但是编程就考验你的真实水平了,比如给你一个实时计算的场景,让你写出主要的代码实现.这也是为什么我在星球里面很少分享原理性的东西,更多的怎么解决真实原创 2020-05-17 20:17:21 · 5516 阅读 · 1 评论 -
运行时数据区域
运行时数据区域根据 <Java虚拟机规范>的规定, Java 虚拟机所管理的内存将包括以下几个部分:堆 Heap。虚机机栈 VM Stack。本地方法栈 Native Method Stack。方法区 Method Area。程序计数器 Program Counter Register。运行时区域程序计数器 Program Counter Register程序计数器是 每个线程独有的,是一块比较小的内存区域,他可以理解为当前线程所执行的字节码的行号的指示器。Java的多原创 2020-05-17 20:15:37 · 263 阅读 · 0 评论 -
为什么要了解垃圾回收与内存分配?
为什么要了解垃圾回收与内存分配?当需要排查出各种内存溢出,内存泄露问题时,当垃圾收集成为系统达到更高并发的瓶颈时,就知道了解垃圾回收与内存分配的策略。垃圾回收算法垃圾回收要解决的首要问题,就是找出哪些对象有用,哪些对象无用,无用的对象就要被回收。比较常见的对象标明算法有引用计数器算法 和 可达性分析算法。引用计数器:原理是记录被引用了多少次,增加一次引用,值增1,减少引用,值减1,如果引用为0,说明对象可以被回收。该算法的效率高,原理也简单,但是不能解决 对象之间循环引用 的问题。可达性分析原创 2020-05-17 20:15:05 · 451 阅读 · 0 评论 -
类加载机制
类加载机制类是在运行期间第一次使用时动态加载的,而不是一次性加载所有类。因为如果一次性加载,那么会占用很多的内存。类的生命周期加载(Loading)验证(Verification)准备(Preparation)解析(Resolution)初始化(Initialization)使用(Using)卸载(Unloading)类加载过程包含了加载、验证、准备、解析和初始化这 5 个阶段。1. 加载加载是类加载的一个阶段,加载过程完成以下三件事:通过类的完全限定名称获取定义该类原创 2020-05-17 20:14:23 · 206 阅读 · 0 评论 -
hive优化实战
这里从四个方面对 Hive 常用的一些性能优化进行了总结。一 : 表设计层面优化利用分区表优化分区表 是在某一个或者几个维度上对数据进行分类存储,一个分区对应一个目录。如 果筛选条件里有分区字段,那么 Hive 只需要遍历对应分区目录下的文件即可,不需要 遍历全局数据,使得处理的数据量大大减少,从而提高查询效率。当一个 Hive 表的查询大多数情况下,会根据某一个字段进行筛选时,那...原创 2020-03-30 10:29:50 · 289 阅读 · 0 评论 -
java的模式
单例模式单例模式定义保证一个类仅有一个实例,并提供一个访问它的全局接口。单例模式的类图单例模式示例饿汉模式public class Singleton1 { private final static Singleton1 singleton = new Singleton1(); private Singleton1() { } public static Sing...原创 2020-03-30 10:18:46 · 157 阅读 · 0 评论