Mage-AI项目实战：构建餐厅交易数据ETL管道教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01197/article/details/148440851

Mage-AI项目实战：构建餐厅交易数据ETL管道教程

mage-ai MAGE AI是一个专注于模型生命周期管理的平台，它有助于简化机器学习模型从训练到部署的过程，提供版本控制、协作、API服务化等功能，提高AI团队的工作效率。项目地址: https://gitcode.com/gh_mirrors/ma/mage-ai

前言

在现代数据工程实践中，ETL（提取、转换、加载）管道是数据基础设施的核心组件。本文将基于Mage-AI项目，手把手教你构建一个完整的ETL数据管道，处理餐厅用户交易数据并将其存储到DuckDB数据库中。

项目概述

本教程将实现以下数据处理流程：

数据提取：从在线API获取CSV格式的餐厅交易数据
数据转换：清洗列名并添加新特征列
数据加载：将处理后的数据写入DuckDB数据库

环境准备

在开始前，请确保已完成以下准备工作：

安装并配置好Python 3.7+环境
安装必要的Python包：pandas、requests、duckdb
确保Docker环境已正确安装（如需使用容器化部署）

详细步骤

第一步：创建ETL管道

在Mage-AI界面中导航至管道列表页面
点击"新建"按钮，选择"标准(批处理)"类型
将管道命名为"ETL演示"并保存设置

专业提示：在正式生产环境中，建议为每个数据源创建独立的管道，便于维护和监控。

第二步：从API加载数据

添加Python数据加载器模块，选择API模板
使用以下代码从公开API获取数据：

import io
import pandas as pd
import requests

@data_loader
def load_data_from_api(*args, **kwargs):
    url = '餐厅交易数据CSV链接'
    response = requests.get(url)
    return pd.read_csv(io.StringIO(response.text), sep=',')

@test
def test_row_count(df, *args) -> None:
    assert len(df.index) >= 1000, '数据行数不足'

关键点解析：

@data_loader装饰器标识这是一个数据加载函数
使用requests库处理HTTP请求，确保数据获取可靠性
@test装饰器定义数据质量检查，确保数据完整性

第三步：数据转换处理

添加Python转换器模块
实现以下转换逻辑：

def number_of_rows_per_key(df, key, column_name):
    return df.groupby(key)[key].agg(['count']).rename(columns={'count': column_name})

def clean_column(column_name):
    return column_name.lower().replace(' ', '_')

@transformer
def transform(df, *args, **kwargs):
    # 添加用户用餐次数统计列
    df_new_column = number_of_rows_per_key(df, 'user ID', 'number of meals')
    df = df.join(df_new_column, on='user ID')
    
    # 标准化列名
    df.columns = [clean_column(col) for col in df.columns]
    
    return df.iloc[:100]  # 限制数据量用于演示

@test
def test_number_of_columns(df, *args) -> None:
    assert len(df.columns) >= 11, '列数不足'

数据处理技巧：