Airflow量化入门系列：第一章 Airflow 基础与量化交易场景

本文链接：https://blog.youkuaiyun.com/weixin_47339916/article/details/146917656

Airflow量化入门系列：第一章 Airflow 基础与量化交易场景

本教程系统性地讲解了 Apache Airflow 在 A 股量化交易中的应用，覆盖从基础安装到高级功能的完整知识体系。通过八章内容，读者将掌握 Airflow 的核心概念、任务调度、数据处理、技术指标计算、策略回测及工作流监控、Docker/Kubernetes集成及生产环境优化等关键技能。教程整合 Tushare 数据源、TA-Lib 技术指标库和 VectorBT 策略回测工具，提供丰富实战案例，帮助构建高效、可靠的工作流，助力量化交易实践。
文中内容仅限技术学习与代码实践参考，市场存在不确定性，技术分析需谨慎验证，不构成任何投资建议。适合量化新手建立系统认知，为策略开发打下基础。

AirFlow

学习对象

中高级水平的开发者
具备 Python 编程基础，熟悉基本的 ETL 流程和数据分析工具
希望掌握 Airflow 在量化交易场景中的应用

教程目标

系统掌握 Apache Airflow 的核心功能与高级特性
深入理解 Airflow 在 A 股量化交易工作流中的应用
能够独立设计、部署和维护复杂的量化交易工作流

教程目录

第一章 Airflow基础与量化交易场景

1.1 Airflow 2.10+核心概念与架构
1.2 量化交易中的任务调度需求
1.3 Airflow环境搭建
1.4 DAG设计原则与任务依赖关系
1.5 示例：Tushare数据定时抓取与存储（Parquet格式）

第二章 DAG设计与任务流控制

2.1 DAG生命周期与状态管理
2.2 Operator类型详解（PythonOperator、BashOperator、TaskFlow API）
2.3 任务依赖关系与XCom通信机制
2.4 示例：A股数据预处理流水线（缺失值处理、特征工程）
2.5 错误处理与重试机制

第三章定时调度与告警集成飞书

3.1 Cron表达式与调度策略
3.2 Airflow Scheduler工作原理
3.3 Airflow Web UI监控与日志分析
3.4 示例：A股日线数据定时更新与异常检测
3.5 告警机制与飞书集成

第四章 A股数据处理与存储优化

4.1 Parquet文件格式优化（分区、压缩）
4.2 Airflow与Tushare API交互最佳实践
4.3 数据管道性能优化（并行任务与资源管理）
4.4 示例：A股基本面数据ETL流程
4.5 数据版本控制与回滚策略

第五章技术指标计算与特征工程

5.1 TA-Lib集成与自定义指标开发
5.2 并行计算与任务拆分策略
5.3 特征工程流水线设计（滞后特征、滚动窗口）
5.4 数据校验与一致性检查
5.5 示例：A股技术指标流水线（MACD、RSI、布林带）

第六章 VectorBT策略开发与回测

6.1 VectorBT集成与回测流程
6.2 策略参数优化与网格搜索
6.3 回测结果与性能评估
6.4 策略版本管理与持续迭代
6.5 示例：基于动量策略的A股回测

第七章机器学习模型训练与部署

7.1 Airflow与Scikit-learn集成
7.2 模型训练流水线设计（数据分片、交叉验证）
7.3 模型评估与超参数调优
7.4 模型部署与在线预测
7.5 示例：A股收益率预测模型训练

第八章高级特性与生产环境优化

8.1 动态任务生成与SubDAG
8.2 Airflow与Kubernetes集成
8.3 安全性与权限管理
8.4 生产环境部署与监控
9.5 性能优化与扩展性设计

第一章 Airflow 基础与量化交易场景

1.1 Airflow 核心概念与架构

Airflow是一个开源的任务调度和工作流管理系统，主要用于定义、调度和监控复杂的数据处理流程。

应用场景：

数据管道管理
ETL 流程自动化
量化交易策略执行与监控

基础架构：Basic Airflow Architecture¹

Basic Airflow Architecture

Metadata Database：Airflow 使用 SQL 数据库来存储有关正在运行的数据管道的元数据。在上图中，使用 Postgres数据库，它在 Airflow 中非常流行。Airflow 默认数据库为 SQLite。
Webserver：Airflow Web 服务器和调度器是单独的进程，在本例中运行在本地机器上，并与上面提到的数据库交互。
Executor：在图中，执行器被单独列出，因为它是 Airflow 中经常被讨论的内容，也是教程中提到的关键部分。但实际上，执行器并不是一个单独的进程，而是运行在调度器内部。
Worker(s)：工作进程是单独的进程，它们也与其他 Airflow 架构组件以及元数据存储库进行交互。
DAG(s)：包含 Python 代码的文件，用于表示 Airflow 要运行的数据管道。这些文件的位置在 Airflow 配置文件中指定，但它们需要能够被 Web Server、Scheduler 和 Workers 访问。
airflow.cfg 是 Airflow 配置文件，由 Web Server、Scheduler和 Worker 访问。

Airflow的核心概念：

DAG（Directed Acyclic Graph）
- 有向无环图，用于定义任务的依赖关系和执行顺序。
- 每个DAG由多个任务（Task）组成，任务之间可以通过依赖关系（Dependencies）连接。
Operator
- 任务的具体实现逻辑，Airflow提供了多种内置Operator。
- 常见的 Operator 包括：
  - BashOperator：执行 Bash 命令。
  - PythonOperator：执行 Python 函数。
  - BranchOperator：根据条件分支任务。
- 自定义Operator可以满足特定需求。
Task
- 任务单元，可以是 Bash、Python、HTTP 等类型。
- 任务可以设置优先级、重试机制等。
Executor
- 负责任务的执行，支持多种执行模式。
- 常见的 Executor 包括：
  - SequentialExecutor：默认执行器，单进程顺序执行任务，适用于调试和开发环境。
  - LocalExecutor：所有任务都在同一个进程中运行，适用于开发和测试环境。
  - CeleryExecutor：使用 Celery 作为任务队列，支持多台机器上的分布式任务执行，多用于生产场景，使用时需要配置消息队列。
  - KubernetesExecutor：在 Kubernetes 集群中动态创建 Pod 来执行任务，每个任务在一个独立的 Pod 中运行，需要配置 Kubernetes API 和相关资源。
  - DaskExecutor:使用 Dask 分布式计算库，支持并行和分布式计算，适用于数据密集型任务。
  - LocalKubernetesExecutor：对于本地任务使用 LocalExecutor，对于 Kubernetes 任务使用 KubernetesExecutor，适用于混合环境，既可以在本地运行一些任务，又可以在 Kubernetes 上运行其他任务。
Scheduler
- 负责调度DAG，根据任务依赖关系和时间规则触发任务。
Web Server
- 提供Web UI，用于监控和管理DAG的运行状态。

1.2 量化交易中的任务调度需求

在量化交易中，任务调度的需求主要集中在以下几个方面：

数据采集：定时抓取市场数据（如K线、基本面数据）。
数据处理：清洗、特征工程和存储优化。
策略开发与回测：定时运行策略回测，评估策略性能。
模型训练与预测：定期更新模型，生成交易信号。
交易执行：根据信号执行交易，并监控交易状态。

Airflow通过灵活的任务调度和依赖管理，可以高效地满足这些需求。

1.3 Airflow环境搭建

Airflow Web UI

Airflow Web UI² 是一个直观的管理工具，支持以下常用功能：

DAGs：查看所有 DAG 的状态和执行历史。
Tree：查看 DAG 的任务依赖关系。
Graph：以图形化方式展示任务执行状态。
Gantt：以甘特图方式展示任务调度计划。
Logs：查看任务日志。

1.3.1 修改默认配置文件

~/airflow/airflow.cfg

[core]
default_timezone = Asia/Shanghai
load_examples = False
[webserver]
default_ui_timezone = Asia/Shanghai
expose_config = True
[tushare]
api_token = your_tushare_token
data_folder = /opt/airflow/data

1.3.3 运行 Airflow 独立版

airflow standalone 命令初始化数据库，创建用户，并启动所有组件。

# 启动服务
airflow standalone

初始化用户：admin，密码文件：standalone_admin_password.txt

1.3.4 验证Airflow环境

访问Web UI：http://localhost:8080，默认用户名/密码为admin/admin。
验证DAG加载：将示例DAG文件放入~/airflow/dags目录，刷新Web UI查看DAG是否加载成功。

1.4 DAG设计原则与任务依赖关系

设计DAG时需遵循以下原则：

模块化：将复杂流程拆分为独立任务。
幂等性：任务多次执行不会产生副作用。
依赖清晰：明确任务间的依赖关系。

示例：定义一个简单的DAG：

from datetime import timedelta

import pendulum
from airflow import DAG
from airflow.operators.python import PythonOperator

default_args = {
    "owner": "airflow",
    "depends_on_past": False,
    "email_on_failure": False,
    "email_on_retry": False,
    "retries": 1,
    "retry_delay": timedelta(minutes=5),
}


def print_context(**kwargs):
    """打印任务上下文信息"""
    print(f"Task started at {kwargs['ts']}")


with DAG(
    "tutorial_dag",
    default_args=default_args,
    description="A simple tutorial DAG",
    schedule_interval=timedelta(days=1),
    start_date=pendulum.today().add(days=-1),
    tags=["quant", "tutorial"],
) as dag:
    t1 = PythonOperator(
        task_id="print_context",
        python_callable=print_context,
    )

    t2 = PythonOperator(
        task_id="print_message",
        python_callable=lambda: print("Hello, Airflow!"),
    )

    t1 >> t2  # 定义任务依赖关系

1.5 示例：Tushare数据定时抓取与存储（Parquet格式）

以下是一个完整的示例，展示如何使用Airflow定时抓取Tushare数据并存储为Parquet文件。

1.5.1 安装依赖

pip install apache-airflow tushare pandas pyarrow

推荐阅读🚀：

Parquet 是一种高效的列式存储格式，具有以下优点：

高效存储：列式存储减少存储空间。
快速查询：支持按列查询，提高查询效率。
压缩支持：支持多种压缩算法。

Parquet 文件的使用：

存储数据：使用 pandas.to_parquet() 方法。
读取数据：使用 pandas.read_parquet() 方法。

数据存储优化的常见策略包括：

分区存储：按时间或类别分区，提高查询效率。
索引优化：使用索引加速查询。
压缩算法：选择合适的压缩算法减少存储空间。

配置 Airflow 使用 Tushare API：

在 ~/airflow/airflow.cfg 文件中添加 Tushare API 配置：

[tushare]
api_token = your_tushare_token # 替换为您的Tushare Token
data_folder = /opt/airflow/data # 数据存储路径

在 DAG 中读取配置：

from airflow.configuration import conf

# 配置 Tushare API
TS_TOKEN = conf.get("tushare", "api_token")
ts.set_token(TS_TOKEN)  # 设置Tushare API Token
pro = ts.pro_api()  # 初始化Tushare API客户端

# 数据存储路径
DATA_DIR = conf.get("tushare", "data_folder")  # Airflow数据存储目录
os.makedirs(DATA_DIR, exist_ok=True)  # 确保目录存在

1.5.2 定义数据抓取与存储任务

import os
from datetime import timedelta

import pendulum
import tushare as ts
from airflow import DAG
from airflow.configuration import conf
from airflow.operators.python import PythonOperator

# 配置 Tushare API
TS_TOKEN = conf.get("tushare", "api_token")  # 替换为您的Tushare Token
ts.set_token(TS_TOKEN)  # 设置Tushare API Token
pro = ts.pro_api()  # 初始化Tushare API客户端

# 数据存储路径
DATA_DIR = conf.get("tushare", "data_folder")  # Airflow数据存储目录
os.makedirs(DATA_DIR, exist_ok=True)  # 确保目录存在


def fetch_stock_data(**kwargs):
    """抓取A股日线数据并存储为Parquet文件。

    :param kwargs: Airflow任务上下文
    """
    # 获取任务执行日期，格式为YYYYMMDD
    execution_date = kwargs["execution_date"].strftime("%Y%m%d")
    # 定义股票代码列表（示例：沪深300成分股）
    stock_codes = ["600000.SH", "600036.SH", "000001.SZ"]
    # 抓取股票代码数据
    try:
        # 抓取指定日期的A股日线数据
        df = pro.daily(
            ts_code=",".join(stock_codes),
            start_date="20250101",  # 默认开始日期
            end_date=execution_date,
        )
        # 定义Parquet文件存储路径
        file_path = os.path.join(DATA_DIR, "stock_data.parquet")
        # 将数据存储为Parquet文件
        df.to_parquet(file_path, index=False)
        # 打印数据存储路径，便于调试
        print(f"Data saved to {file_path}")
    except Exception as e:
        # 捕获异常并打印错误信息
        print(f"Error fetching data for {execution_date}: {e}")


# 定义DAG默认参数
default_args = {
    "owner": "airflow",  # DAG所有者
    "depends_on_past": False,  # 是否依赖过去任务
    "email_on_failure": False,  # 任务失败时是否发送邮件
    "email_on_retry": False,  # 任务重试时是否发送邮件
    "retries": 1,  # 任务重试次数
    "retry_delay": timedelta(minutes=5),  # 任务重试间隔
}

# 定义DAG
with DAG(
    "fetch_stock_data",  # DAG名称
    description="定时抓取A股日线数据",  # DAG描述
    default_args=default_args,  # 默认参数
    schedule_interval=timedelta(days=1),  # 调度间隔（每天执行一次）
    start_date=pendulum.today().add(days=-1),  # DAG开始日期
    tags=["quant", "tushare"],  # DAG标签
) as dag:
    # 定义任务
    fetch_task = PythonOperator(
        task_id="fetch_stock_data",  # 任务ID
        python_callable=fetch_stock_data,  # 任务执行函数
        provide_context=True,  # 提供任务上下文
    )

    # 定义任务依赖关系（此处只有一个任务）
    fetch_task

1.5.3 验证结果

触发DAG：通过Airflow Web UI或命令行触发DAG。
检查日志：在Web UI中查看任务日志，确认数据抓取和存储成功。

验证数据：检查Parquet文件是否生成，使用以下代码验证：

import pandas as pd
# 读取Parquet文件
df = pd.read_parquet("/opt/airflow/data/stock_data.parquet")
# 打印数据前5行，验证内容
print(df.head())

1.6 本章总结

本章介绍了Airflow的基本概念、量化交易中的任务调度需求，以及如何搭建Airflow环境。通过一个简单的示例，我们展示了如何使用Airflow定时抓取Tushare数据并存储为Parquet文件。下一章将深入讲解DAG设计与任务流控制。

风险提示与免责声明
本文内容基于公开信息研究整理，不构成任何形式的投资建议。历史表现不应作为未来收益保证，市场存在不可预见的波动风险。投资者需结合自身财务状况及风险承受能力独立决策，并自行承担交易结果。作者及发布方不对任何依据本文操作导致的损失承担法律责任。市场有风险，投资须谨慎。