- 博客(7)
- 收藏
- 关注
原创 Spark3.x 程序性能优化手段
如果想要让任务运行的最快当然是一个 task 对应一个 vcore,但 是一般不会这样设置,为了合理利用资源,一般会将并行度(task 数)设置成并发度 (vcore 数)的 2 倍到 3 倍。每台机器的最大executor数是7个 那么,每个executor的内存executor-memory是100/7 = 14g;executor-cores 每个 executor 的最大核数。每个executor 的executor-cores 按4算(3~6 之间),(2)executor-memory 估算。
2024-03-19 17:11:00
250
原创 数据仓库架构演变
实时链路的计算结果起到一个参考的作用,实时部分的需求较少;(3) 实时部分kafka中的数据不能永久存储,这部分数据有时效性,BI分析不方便;如果实时计算需求较多,可以选择这种架构,不过实时计算结果的准确率依旧比不上离线部分,(2) 实时部分kafka中的数据不能永久存储,这部分数据有时效性,BI分析不方便;后期维护管理不方便。(1) 对于计算结果来说,数据延迟高,不能满足实时计算的需求;(1) 在传统离线需求的基础上,满足了少量实时计算的需求。(1) 在传统离线需求的基础上,满足了大量实时计算的需求。
2024-03-15 16:25:37
407
1
原创 Spark-Hdp Ambari集成Hive配置
AmbariHdpHiveSparkHdp、Spark、Hive 在安装OK后 1. Hive各层的库要建好 Hive各层要建好后,才会在Hdfs生成相关各层的目录,后面配置Spark访问Hive的目录,要保证这个目录存在包装xx/managed/hive目录存在 1.修改spark配置: Advanced spark2-defaults spark.sql.warehouse.dir 值/apps/spark/warehouse 改为hive数据存储hdfs位置:/us
2023-04-26 08:52:13
773
原创 Spark-使用Dbeaver工具连接spark使用sparkSql
1.创建SparkThirdService想使用Dbeaver工具连接spark使用sparkSql访问Hive表,就要用到一个东西这东西就类似java jdbc连接,连接hive的hiveService2这种东西;下面的列子是Hdp,并且Hdp带的Spark和Hive已经配置好了集成;1.创建SparkThirdService通过如下命令创建一个SparkThirdService, 类似于HiveService2 , JDBC, 最后效果就是创建了一个Spark应用程序;
2023-04-24 16:41:24
1710
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人