学习spark遇到的问题汇总(一)

本文汇总了Spark开发过程中的关键知识点,包括Spark Streaming的计算模式、Kafka配置、RDD操作、Spark任务部署策略、ES分片原理、Presto集群注意事项、Shuffle Write过程、Executor核数设置、UDAF更新行为、全局变量使用、Kafka消费模式等,旨在帮助开发者更好地理解和优化Spark应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.Spark Streaming包含三种计算模式:nonstate.stateful .window

 

2.kafka可通过配置文件使用自带的zookeeper集群

 

3.Spark一切操作归根结底是对RDD的操作

 

4.部署Spark任务,不用拷贝整个架包,只需拷贝被修改的文件,然后在目标服务器上编译打包。

 

5.kafka的log.dirs不要设置成/tmp下的目录,貌似tmp目录有文件数和磁盘容量限制

 

6.ES的分片类似kafka的partition

 

7spark Graph根据边集合构建图,顶点集合只是指定图中哪些顶点有效

 

8.presto集群没必要采用on yarn模式,因为hadoop依赖HDFS,如果部分机器磁盘很小,hadoop会很尴尬,而presto是纯内存计算,不依赖磁盘,独立安装可以跨越多个集群,可以说有内存的地方就可以有presto

 

9.presto进程一旦启动,JVM server会一直占用内存

 

10.编译spark,hive onspark就不要加-Phive参数,若需sparkSQL支持hive语法则要加-Phive参数

 

11.通过hive源文件pom.xml查看适配的spark版本,只要打版本保持一致就行,例如spark1.6.0和1.6.2都能匹配

 

12.kafka的comsumer groupID对于sparkdirect streaming无效

 

13.shuffle write就是在一个stage结束计算之后,为了下一个stage可以执行shu

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值