1.Spark Streaming包含三种计算模式:nonstate.stateful .window
2.kafka可通过配置文件使用自带的zookeeper集群
3.Spark一切操作归根结底是对RDD的操作
4.部署Spark任务,不用拷贝整个架包,只需拷贝被修改的文件,然后在目标服务器上编译打包。
5.kafka的log.dirs不要设置成/tmp下的目录,貌似tmp目录有文件数和磁盘容量限制
6.ES的分片类似kafka的partition
7spark Graph根据边集合构建图,顶点集合只是指定图中哪些顶点有效
8.presto集群没必要采用on yarn模式,因为hadoop依赖HDFS,如果部分机器磁盘很小,hadoop会很尴尬,而presto是纯内存计算,不依赖磁盘,独立安装可以跨越多个集群,可以说有内存的地方就可以有presto
9.presto进程一旦启动,JVM server会一直占用内存
10.编译spark,hive onspark就不要加-Phive参数,若需sparkSQL支持hive语法则要加-Phive参数
11.通过hive源文件pom.xml查看适配的spark版本,只要打版本保持一致就行,例如spark1.6.0和1.6.2都能匹配
12.kafka的comsumer groupID对于sparkdirect streaming无效
13.shuffle write就是在一个stage结束计算之后,为了下一个stage可以执行shu