AWS SDK for pandas 实战：使用 Glue Catalog 管理数据湖元数据-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00221/article/details/148549818

AWS SDK for pandas 实战：使用 Glue Catalog 管理数据湖元数据

aws-sdk-pandas aws/aws-sdk-pandas: 是一个用于 Pandas 的 AWS SDK，可以方便地在 Python 中访问 AWS 服务。适合对 AWS、Pandas 和想要实现 AWS 服务访问的开发者。项目地址: https://gitcode.com/gh_mirrors/aw/aws-sdk-pandas

前言

在数据湖架构中，元数据管理是至关重要的环节。AWS Glue Catalog 作为 AWS 数据湖的核心元数据存储服务，能够帮助我们高效地管理表结构和数据位置信息。本文将介绍如何通过 AWS SDK for pandas（原 awswrangler）与 Glue Catalog 进行交互，实现数据湖元数据的自动化管理。

环境准备

首先确保已安装 AWS SDK for pandas 并完成 AWS 凭证配置：

import pandas as pd
import awswrangler as wr

创建测试数据

我们创建一个简单的产品数据 DataFrame 作为示例：

df = pd.DataFrame(
    {"id": [1, 2, 3], 
     "name": ["shoes", "tshirt", "ball"], 
     "price": [50.3, 10.5, 20.0], 
     "in_stock": [True, True, False]}
)

Glue Catalog 数据库操作

查看现有数据库

databases = wr.catalog.databases()
print(databases)

输出示例：

            Database                                   Description
0  aws_sdk_pandas  AWS SDK for pandas Test Arena - Glue Database
1            default                         Default Hive database

创建新数据库

在操作前先检查数据库是否存在：

if "awswrangler_test" not in databases.values:
    wr.catalog.create_database("awswrangler_test")
    print(wr.catalog.databases())
else:
    print("Database awswrangler_test already exists")

表操作与管理

查看数据库中的表

wr.catalog.tables(database="awswrangler_test")

将 DataFrame 写入数据湖并注册元数据

AWS SDK for pandas 提供了强大的 to_parquet 方法，可以同时完成数据写入和元数据注册：

desc = "This is my product table."
param = {"source": "Product Web Service", "class": "e-commerce"}
comments = {
    "id": "Unique product ID.",
    "name": "Product name",
    "price": "Product price (dollar)",
    "in_stock": "Is this product availaible in the stock?",
}

wr.s3.to_parquet(
    df=df,
    path=f"s3://{bucket}/products/",
    dataset=True,
    database="awswrangler_test",
    table="products",
    mode="overwrite",
    glue_table_settings=wr.typing.GlueTableSettings(
        description=desc, 
        parameters=param, 
        columns_comments=comments
    ),
)

关键参数说明：

dataset=True：启用数据集模式，将创建分区目录结构
glue_table_settings：配置表的元数据信息

查询表信息

AWS SDK for pandas 提供了多种表查询方式：

按名称包含查询：

wr.catalog.tables(name_contains="roduc")

按前缀查询：

wr.catalog.tables(name_prefix="pro")

按后缀查询：

wr.catalog.tables(name_suffix="ts")

按描述文本查询：

wr.catalog.tables(search_text="This is my")

获取表结构详情

wr.catalog.table(database="awswrangler_test", table="products")

输出将显示列名、数据类型、是否分区列以及列注释等详细信息。

清理资源

删除表

for table in wr.catalog.get_tables(database="awswrangler_test"):
    wr.catalog.delete_table_if_exists(database="awswrangler_test", table=table["Name"])

删除数据库

wr.catalog.delete_database("awswrangler_test")

最佳实践建议

元数据规范化：为表和列添加清晰的描述和注释，便于后续维护
参数化配置：利用 parameters 存储业务相关元数据
版本控制：重要表结构变更应考虑版本控制策略
权限管理：严格控制 Glue Catalog 的访问权限

总结

通过 AWS SDK for pandas 与 Glue Catalog 的集成，我们能够实现：

自动化元数据管理
数据与元数据的原子性操作
丰富的元数据查询能力
与 AWS 数据分析服务（如 Athena、Redshift Spectrum）无缝集成

这种集成方式大大简化了数据湖的管理工作，使数据工程师能够更专注于数据价值挖掘而非基础设施管理。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考