一、PV和UV是怎么计算的,UV怎么进行去重的?不用ES该如何实现去重?
思路:首先要理解PV、UV的基本概念。去重分两种,一种是基本的数据结构(Hashset等),另外一种是借助框架去实现(bigmap、hyperloglog等)。
二、说说 flink,spark streaming,storm 的区别?
三、讲一讲spark的调度执行逻辑,stage,宽依赖和窄依赖,容错机制 ?
这部分由于内容太多,只提供部分重点答案。
1.调度执行逻辑:
spark shuffle:因为具有某种共同的特征的一类数据需要最终汇聚 (aggregate)到一个计