背景
企业应用从微服务架构向 Serverless(无服务器)架构演进,开启了无服务器时代,面向无服务器计算领域的 Serverless 工作流也应运而生。许多 Serverless 应用程序不是由单个事件触发的简单函数,而是由一系列函数多个步骤组成的,而函数在不同步骤中由不同事件触发。Serverless 工作流用于将函数编排为协调的微服务应用程序。
Serverless 工作流由于自身可编排、有状态、持久化、可视化监控、异常处理、云服务集成等特性,适用于很多应用场景,比如:复杂度高需要抽象的业务(订单管理,CRM 等)、业务需要自动中断 / 恢复能力,如多个任务之间需要人工干预的场景(人工批,部署流水线等)、业务需要手动中断 / 恢复(数据备份 / 恢复等)、需要详细监控任务执行状态的场景、流式处理(日志分析,图片 / 视频处理等)
当前大部分 Serverless Workflow 平台更多关注控制流程的编排,忽视了工作流中数据流的编排和高效传输,上述场景 1-4 中,由于数据流相对简单,所以各大平台支持都比较好,但是对于文件转码等存在超大数据流的场景,当前各大平台没有给出很好的解决方案。华为云 FunctionGraph 函数工作流针对该场景,提出了 Serverless Streaming 的流式处理方案,支持毫秒级响应文件处理。本文将以图片处理的场景作为例子详细描述当前的问题以及华为云 FunctionGraph 函数工作流在面对该问题时采取的一系列实践。
问题描述
先以一个图片处理的场景举例,用户想要执行一个图片压缩并且加水印的任务,这个场景在典型的工作流系统中,可以用如图一所示的方式进行处理。

如上图所示,图片压缩和图片加水印的结果都是二进制文件格式,但是当前主流的 Serverless Workflow 平台在多个步骤之间传输上下文都只能支持文本格式传输,所以图片压缩和加水印的结果都需要经过 BASE64 或者其他转码方式转成文本进行数据流传输。
但是这种方案的限制和使用成本都比较高:
1、函数的 Response Body 通常有大小限制,所以这种方式无法处理超大文件。2、执行结果转换为文本,需要消耗大量内存,内存成本比较高。
如何简单高效的进行文件处理,业界也给出了其他解决方案,如通过云存储进行中间结果转储、AWS 的 Lambda Object 文件