自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Spark3.x 程序性能优化手段

如果想要让任务运行的最快当然是一个 task 对应一个 vcore,但 是一般不会这样设置,为了合理利用资源,一般会将并行度(task 数)设置成并发度 (vcore 数)的 2 倍到 3 倍。每台机器的最大executor数是7个 那么,每个executor的内存executor-memory是100/7 = 14g;executor-cores 每个 executor 的最大核数。每个executor 的executor-cores 按4算(3~6 之间),(2)executor-memory 估算。

2024-03-19 17:11:00 250

原创 数据仓库架构演变

实时链路的计算结果起到一个参考的作用,实时部分的需求较少;(3) 实时部分kafka中的数据不能永久存储,这部分数据有时效性,BI分析不方便;如果实时计算需求较多,可以选择这种架构,不过实时计算结果的准确率依旧比不上离线部分,(2) 实时部分kafka中的数据不能永久存储,这部分数据有时效性,BI分析不方便;后期维护管理不方便。(1) 对于计算结果来说,数据延迟高,不能满足实时计算的需求;(1) 在传统离线需求的基础上,满足了少量实时计算的需求。(1) 在传统离线需求的基础上,满足了大量实时计算的需求。

2024-03-15 16:25:37 407 1

原创 Spark-Hdp Ambari集成Hive配置

AmbariHdpHiveSparkHdp、Spark、Hive 在安装OK后 1. Hive各层的库要建好 Hive各层要建好后,才会在Hdfs生成相关各层的目录,后面配置Spark访问Hive的目录,要保证这个目录存在包装xx/managed/hive目录存在 1.修改spark配置: Advanced spark2-defaults spark.sql.warehouse.dir 值/apps/spark/warehouse 改为hive数据存储hdfs位置:/us

2023-04-26 08:52:13 773

原创 Spark-使用Dbeaver工具连接spark使用sparkSql

1.创建SparkThirdService想使用Dbeaver工具连接spark使用sparkSql访问Hive表,就要用到一个东西这东西就类似java jdbc连接,连接hive的hiveService2这种东西;下面的列子是Hdp,并且Hdp带的Spark和Hive已经配置好了集成;1.创建SparkThirdService通过如下命令创建一个SparkThirdService, 类似于HiveService2 , JDBC, 最后效果就是创建了一个Spark应用程序;

2023-04-24 16:41:24 1710 4

原创 Hive-表DML操作

【代码】Hive-表DML操作。

2023-04-24 16:16:50 138 2

原创 Hive-tez合并小文件

Hive-tez合并小文件

2023-04-24 15:51:36 739 2

原创 hive-表对应hdsf文件数量,可用于查hdfs小文件数量的

hive表对应hdsf文件数量

2023-04-24 09:46:45 1140 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除