背景
公司的数据开发平台需要用到DolphinScheduler做任务调度,其中一个场景是:上游任务执行结束后,需要将任务执行结果传递给下游任务。
DolphinScheduler肯定是能实现任务之间的传参的,具体的可以看:DolphinScheduler | 文档中心 (apache.org)。
但是官方案例中介绍的任务之间传参是提前在管理台上配置好的,OK,那么问题来了,如何实现任务之间的动态传参呢?比如说我们自定义Task,然后在Task执行结束后将执行结果封装,传递给DAG中的下一个Task。
分析
如果DolphinScheduler官方的案例没有演示如何动态传,我们开发者应该如何去处理这种需求?
我是这么做的:分析DolphinScheduler内置的Task,总有一个Task是需要传递参数给下游的。我这里盲猜两个,一个是SqlTask
,一个是HttpTask
。我的观点是:总不能做完SQL查询,或者做完HTTP请求后就不管结果吧?
分析HttpTask源码
分析HttpTask源码,直接找到HttpTask的handle方法,DolphinScheduler中,任何Task的具体执行逻辑都在这个handle方法中。
handle
方法分析
@Override
public void handle(TaskCallBack taskCallBack) throws TaskException {
long startTime = System.currentTimeMillis();
String formatTimeStamp = DateUtils.formatTimeStamp(startTime);
String statusCode = null;
String body = null;
try (
CloseableHttpClient client = createHttpClient();
CloseableHttpResponse response = sendRequest(client)) {
statusCode = String.valueOf(getStatusCode(response));
body = getResponseBody(response);
exitStatusCode = validResponse(body, statusCode);
// 看名字应该就能猜到是处理请求结果的
addDefaultOutput(body);
long costTime = System.currentTimeMillis() - startTime;
log.info(
"startTime: {}, httpUrl: {}, httpMethod: {}, costTime : {} milliseconds, statusCode : {}, body : {}, log : {}",
formatTimeStamp, httpParameters.getUrl(),
httpParameters.getHttpMethod(), costTime, statusCode, body, output);
} catch (Exception e) {
appendMessage(e.toString());
exitStatusCode = -1;
log.error("httpUrl[" + httpParameters.getUrl() + "] connection failed:" + output, e);
throw new TaskException("Execute http task failed", e);
}
}
继续看addDefaultOutput
方法
public void addDefaultOutput(String response) {
// put response in output
// 创建Property对象
Property outputProperty = new Property();
// 设置Prop,也就是设置Key
outputProperty.setProp(String.format("%s.%s", taskExecutionContext.getTaskName(), "response"));
// 设置是入参还是出参,这里是出参,因为是将结果给下游任务
outputProperty.setDirect(Direct.OUT