郝少
爱出者爱返,福往者福来。
展开
-
【DolphinScheduler】V3.1.2集群搭建
dolphinScheduler v3.1.2版本集群搭建原创 2023-02-07 16:40:15 · 781 阅读 · 0 评论 -
【Dolphinscheduler】DS提交pyspark多文件项目到yarn集群
一、测试环境DS:1.3.4Ambari:2.6.3.0-235提交模式:client二、需求说明需要使用pyspark写一个算法模型项目,通过DS进行提交训练。此算法模型项目包含多个.py文件和配置文件、模型相关文件。具体结构如下图,其中配置文件为conf/env.yml,模型文件为modelfiles/bert/bert_vocab.txt、modelfiles/bert/config.json、pytorch_model.bin。输出文件夹为output。run.p...原创 2022-02-17 09:53:50 · 1161 阅读 · 0 评论 -
【Dolphinscheduler】DS提交pyspark,路径文件找不到问题
一、问题描述程序需要提供配置输出日志路径,错误配置为:root_dir: m_dslog_dir: m_ds/logs报错信息:FileNotFoundError: [Errno 2] No such file or directory: '/tmp/dolphinscheduler/exec/process/8/74/405/418/m_ds/logs/bert_for_multi_label-2022-02-09-17:15:14.log'二、解决办法原因:由于日志路径配原创 2022-02-17 09:40:23 · 1169 阅读 · 0 评论 -
【Dolphinscheduler】DS资源中心上传比较大的文件内存溢出
1、问题描述在DS中心上传比较大的文件时,页面加载100%,但是一直在loading,后台dolphinscheduler-api-server.log报内存溢出错误:java.lang.OutOfMemoryError: Java heap space at java.util.Arrays.copyOf(Arrays.java:3236) at java.io.ByteArrayOutputStream.grow(ByteArrayOutputStream.java:118...原创 2022-01-21 14:19:46 · 2034 阅读 · 5 评论 -
【Dolphinscheduler】提交pyspark单文件到yarn集群
一、测试环境DS:1.3.4Ambari:2.6.3.0-235二、python测试代码,dspythontest.pyimport osimport pandas as pdfrom pyspark.sql import SparkSessionfrom argparse import ArgumentParserspark = SparkSession \ .builder \ .appName("ds python test") \ .enable原创 2022-01-18 16:29:08 · 4065 阅读 · 2 评论 -
【DolphinScheduler】租户和队列
一、租户租户对应的是 Linux 的用户,用于 worker 提交作业所使用的用户。如果 Linux 没有这个用户,worker 会在执行脚本的时候创建这个用户。租户编码:租户编码是 Linux 上的用户,唯一,不能重复。新建的租户会在 HDFS 上 $hdfsPath("/dolphinscheduler") 目录下创建租户目录,租户目录下为该租户上传的文件和 UDF 函数。租户名称:租户编码的别名注意:在选择租户时,要考虑选择的租户在程序的执行中是否有相应的读写权限,避免出错。原创 2021-11-01 17:08:54 · 4912 阅读 · 0 评论 -
【DolphinScheduler】手动提交spark到yarn cluster运行正常,DS提交yarn cluster报空指针等错误
问题描述:手动提交spark到yarn cluster运行正常,DS提交yarn cluster报空指针等错误:Exception in thread "main" org.apache.spark.SparkException: Application application_1633943332832_0171 finished with failed status at org.apache.spark.deploy.yarn.Client.run(Client.scala:1187)原创 2021-11-01 16:32:17 · 688 阅读 · 0 评论 -
【DolphinScheduler】提交spark任务scopt参数问题
在spark中如果使用的是scopt技术传递参数,则scopt参数在ds中的传递位置和格式如下:原创 2021-11-01 16:26:21 · 1483 阅读 · 0 评论 -
【DolphinScheduler】spark任务执行成功,状态却显示失败问题
1、问题描述在ds上执行运行一个spark任务,yarn显示成功运行并有正常输出,但是ds的页面反馈为失败。页面显示:worker节点日志显示:[ERROR] 2021-11-01 10:31:53.418 org.apache.dolphinscheduler.common.utils.HttpUtils:[73] - Connect to 192.168.xxx.xx3:8088 [/192.168.xxx.xx3] failed: 拒绝连接 (Connection refused原创 2021-11-01 14:00:37 · 2608 阅读 · 0 评论 -
【DolphinScheduler】api调用
一、背景一般都是通过页面来创建项目、流程等,但是与第三方系统集成就需要通过调用 API 来管理项目、流程。二、说明在第三方系统集成调用api的时候需要使用token信息,所以要先创建token。三、创建token1、登录调度系统,点击 "安全中心",再点击左侧的 "令牌管理",点击 "令牌管理" 创建令牌2、选择 "失效时间" (Token有效期),选择 "用户" (以指定的用户执行接口操作),点击 "生成令牌" ,拷贝 Token 字符串,然后...原创 2021-10-25 15:47:39 · 6495 阅读 · 0 评论 -
【DolphinScheduler】创建文件
1、创建租户2、创建用户3、切换admin2用户登录并创建文件4、注意上面一定要按顺序执行,如果此用户下无租户是不能创建成功的,会报当前用户下无租户错误。所以创建之前要确保当前用户下有可用的租户。...原创 2021-10-22 11:37:44 · 544 阅读 · 0 评论 -
【DolphinScheduler】集群搭建
集群搭建原创 2021-10-22 11:01:34 · 1826 阅读 · 0 评论