- 博客(25)
- 资源 (2)
- 收藏
- 关注
原创 dolphinscheduler海豚调度升级(1.3.3->2.0.5)及问题总结
文章写于2022-04-14。我们公司用的海豚1.3.3版本,这个版本问题有点多。影响到了生产了,所以准备对海豚进行个升级。升级到海豚最新版本是2.0.5。这个版本还是有点坑,毕竟新增了一些东西。不过相对1.3.3,我更喜欢2.x的海豚。接下来,我将升级过程及升级后出现的BUG记录起来。官网升级步骤地址:https://dolphinscheduler.apache.org/zh-cn/docs/latest/user_doc/guide/upgrade.html升级还是比较容易的只需要.....
2022-04-14 18:40:26
7594
12
原创 海豚调度任务如何判断任务成功还是失败(源码)?
前言:在海豚调度中,大家肯定会遇到一种情况就是,任务成功,但是显示失败。是不是感觉很困扰。我现在也遇到这个情况。我们公司开发人员在执行之前老代码(hive引擎)的时候。偶尔成功偶尔失败。海豚调度到底是如何判断任务的成功和失败的?异常:查看海豚的worker日志。光看日志报错,各位大佬基本就能猜到了吧~没错,海豚在执行完,获取执行这个任务中的所有application_id。然后通过yarn的API。去获取最终状态。那是不是呢?我们看源码。源码位置:org/ap..
2022-02-25 16:17:13
3816
4
原创 根据Sparklens优化参数(图文解释)
前言如何使用Sparklens已经发给大家了传送门,那么如何根据生成的图去判断如何优化参数呢?如何判断数据倾斜该优化呢?参数优化1、如何设置executor 核数可以参考这个,如果浪费太多就减少一点。2、如何设置executor 内存查看发现这个峰值其实并不高。所以根据这个峰值来算。2~5倍最合适。当然可以看后端的解析日志,有提示。比如下面这个。在executor数量不变的情况下,提示给1.4G最合适。3、如何设置executor 数量设置不同的数量预计...
2022-01-21 13:04:49
1842
3
原创 dolphinScheduler1.3.3(海豚调度)worker卡死
前言对于我这个问题,我在社区上提过issues: https://github.com/apache/dolphinscheduler/issues/6959但是没有人回复和提供解决方案。然后我只能自己改源码,把问题就解决了。我把解决方案放到issues上。但是前段时间社区关闭了我的问题。所以我放到这里吧。问题我的海豚集群版本是1.3.3,我有两个master节点和很多workergroup,其中一个workergroup有一个worker节点。当我这个worker节点服务宕了。配置到这
2022-01-19 13:29:40
5701
8
原创 Spark资源监控优化工具:Sparklens实操
Spark优化工具-Sparklens实操,2022年最新测试且通过。针对网络隔离的集群,手把手教你如何编译,使用。
2022-01-11 15:10:40
4331
7
原创 Alluxio功能测试
1、功能测试0)查看命令alluxio fs ls /cos alluxio fs cat /cos/t1)上传文件到alluxioalluxio fs copyFromLocal /local /alluxio 下载到本地 alluxio fs copyToLocal /alluxio /local本地上传数据到alluxio映射的cos上。alluxio fs copyFromLocal dt=2021-09-06 /cos/shaiwu_check/2)
2021-09-13 10:23:43
636
原创 Alluxio基础知识
本章是记录Alluxio,我个人认为很有用的知识点。首次玩Alluxio的人可以看看。对Alluxio架构使用有疑问的可直接看问答。如果有其他疑问欢迎评论区提问。我使用的是Alluxio的1.8版本。相对比较老。参数没有新版本全。(友情提示,官网有的参数不准,选择1.8版本的文档,里面竟然有2.0以后的参数,导致参数使用后无法找到类)Alluxio分为3层最高MEM中层SSD底层HDD系统架构分为3块Master:负责集群元数据信息。Worker:主要负责存储。可
2021-09-13 10:16:50
456
转载 Alluxio调研
参考:Alluxio官网,腾讯云,优快云一、Alluxio简介Alluxio 是世界上第一个面向基于云的数据分析和人工智能的开源的数据编排技术。 它为数据驱动型应用和存储系统构建了桥梁, 将数据从存储层移动到距离数据驱动型应用更近的位置从而能够更容易被访问。 这还使得应用程序能够通过一个公共接口连接到许多存储系统。 Alluxio内存至上的层次化架构使得数据的访问速度能比现有方案快几个数量级。在大数据生态系统中,Alluxio 位于数据驱动框架或应用(如 Apache Spark、Pr
2021-09-09 15:13:22
277
原创 Ray分布式机器学习-Raydp(与Spark集成)
参考:官网文档Ray与SparkDF集成Ray的数据集加载介绍:Ray Datasets are the standard way to load and exchange data in Ray libraries and applications. Datasets provide basic distributed data transformations such asmap,filter, andrepartition, and are compatible with a var...
2021-08-25 18:36:01
2406
2
原创 Sqoop双环境
背景:现在已经有一套sqoop环境了。但是因为其他事业部开通SSL加密。需要用另外的驱动包8.X。如果使用8.X就必须在脚本中新增配置参数。为了不影响之前脚本的运行。搭建双Sqoop环境。1、复制原来的Sqoop文件。cp sqoop sqoopssl2、配置环境变量(让用户可以使用sqoopssl的脚本)vim /etc/profile#写入export SQOOPSSL_HOME=/opt/sqoopsslPATH=$SQOOPSSL_HOME/bin#执行刷新配置文
2021-08-10 15:55:46
152
原创 iceberg-Flink1.11.0 测试案例
参考:官网,调研传送门测试使用的Flink1.11.0版本,本文分为SQL和Streaming一、配置及参数1、配置jar包:iceberg0.11.0版本,官网下载jar包,放到spark的lib目录下。注意:因为Flink链接Hive是通过Catalog进行操作的。所以需要提前进行Catalog链接创建。不支持:delete/merge/insert overwrite。仅支持追加。不支持:altert table 操作表。新增/删除/更改列。(如果需要改需使用spark引擎)2、
2021-04-06 15:42:16
472
原创 iceberg-Spark3.0 DF/Streaming 测试案例
参考:官网,调研传送门测试使用的Spark3.0版本,iceberg-Spark DF/Streaming 操作分2部分,DF、Streaming一、创建项目:组件版本sbt1.4.2scala2.12.10Spark3.0.0iceberg0.11.0build.sbt文件name := "Iceberg_smzdm"version := "0.1"scalaVersion := "2.12.10"libraryDependencies +
2021-04-06 15:21:54
518
原创 iceberg-Spark3.0SQL 测试案例
iceberg-spark3.0 测试案例参考:官网,调研传送门测试使用的Spark3.0版本,iceberg-Spark操作分3部分,SQL、DF、Streaming一、配置及参数1、配置jar包:iceberg0.11.0版本,官网下载jar包,放到spark的jars目录下。点击下载spark2.4和spark3的驱动包。注意:要在Spark中使用Iceberg,请首先配置catalogs(注意:Spark2.4不支持DDL操作)2、注意:1、iceberg命名空间:V1和V2表
2021-04-06 15:09:32
2621
原创 iceberg-hive 测试案例
iceberg-hive 测试案例参考:官网,调研传送门蓝瘦香菇,iceberg 太难操作了。真心不如Delta Lake操作的顺利一、配置及须知1、配置jar包:iceberg0.11.0版本,官网下载jar包,放到hive的lib目录下。2、参数:SET engine.hive.enabled=true;SET iceberg.engine.hive.enabled=true;SET iceberg.mr.catalog=hive; //使hive能访问spark下catalog为
2021-03-22 11:51:29
1656
4
原创 iceberg的调研报告
iceberg的调研报告参考:官网iceberg简介Apache Iceberg is an open table format for huge analytic datasets. Iceberg adds tables to Presto and Spark that use a high-performance format that works just like a SQL table.设计初衷是:以类似于SQL的形式高性能的处理大型的开放式表, 联想HIVE工具!其对类似hive作
2021-03-15 17:16:01
2402
2
原创 Hive映射Delta表以及Spark3-sql操作DL表
Hive映射Delta表参考:git源码,连接器jar包:delta-hive-assembly_2.11-0.2.0.jar,delta-hive-assembly_2.12-0.2.0.jar,hive-delta_2.11-0.1.0.jar我们使用Spark操作DL表很方便,但是想更方便的用Hive去查看DL表,怎么做呢?经过测试趟坑,总结以下文章。各位大牛转载的请备注我的链接地址一、集群环境组件版本HDFS2.8.4Hive2.3.2Spark3.
2021-02-08 16:26:45
2004
原创 Spark多版本共存
前言我们公司用的是Spark2.3.2,但是现在测试DeltaLake又需要用到Spark3.0,所以在当前集群做多个Spark版本共存。一、下载下载当然是要去Spark官网下载咯。自己选择对应的版本下载。当然,如果没有对应的版本,就需要自己下载源码,更改版本然后重新进行编译。1、下载$ wget https://mirror.bit.edu.cn/apache/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz 2、解压,路径为/data/sof
2021-02-04 18:56:46
2175
6
原创 Delta Lake 测试案例
Delta Lake 测试案例参考:官网本篇我将写几个测试用例,来测试其功能,我这里使用sbt去创建项目,数据落盘到我本地电脑一、创建项目:组件版本sbt1.4.2scala2.12.10Spark3.0.0DeltaLake0.7.0build.sbt文件name := "DaltaLake"version := "0.1"scalaVersion := "2.12.10"libraryDependencies += "org.apach
2021-02-02 15:46:25
946
原创 Delta Lake的调研报告
Delta Lake的调研报告参考:DeltaLake官网,Delta 初探,DeltaLake,DeltaLake详解架构图Delta Lake简介在说 Delta Lake 之前,要先提一下 Data Lake ,Data Lake 的主要思想是将企业中的所有数据进行统一管理。例如基于 Hadoop 的 Data Lake 方案可以非常低成本的存储所有类型的数据。基于 hadoop 的方案只支持批量插入,且用户读取时可能无法获取最新数据,多用户同时进行写操作还会发生异常,带来脏数据的问题,
2021-01-27 14:19:16
733
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人