90%左右都是在基于Hive做SQL多维度数据分析,现在的主要的潮流是Spark SQL+Hive;
CPU更加有效的利用: a new technique called whole stage code generation.
Structured Streaming是Spark 2.x功能上最让人兴奋的变化
观点1:从Spark 2.0开始,Spark本身成为了编译器
CPU浪费时间的地方主要有两处:第一:Virtual function call的调用;第二:CPU要基于内存读写数据也会花费大量的时间消耗;