Amundsen数据目录系统与Amazon Neptune集成指南

鲍诚寒Yolanda

于 2025-06-09 09:03:21 发布

阅读量405

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_01016/article/details/148524092

Amundsen数据目录系统与Amazon Neptune集成指南

amundsen 项目地址: https://gitcode.com/gh_mirrors/amu/amundsen

前言

Amundsen是一个开源的数据发现和元数据引擎，由Lyft开发并广泛应用于数据治理领域。作为其核心组件之一，图数据库在Amundsen架构中扮演着关键角色，负责存储和管理数据资产之间的复杂关系网络。传统上，Amundsen默认使用Neo4j作为图数据库后端，但随着云原生架构的普及，Amazon Neptune作为完全托管的图数据库服务，为Amundsen用户提供了另一种高性能选择。

本文将详细介绍如何将Amundsen与Amazon Neptune集成，包括数据构建、发布、搜索集成以及元数据服务配置等关键环节。

为什么选择Neptune？

Amazon Neptune是AWS提供的完全托管图数据库服务，具有以下优势：

原生支持Property Graph和RDF两种图模型
高性能查询能力，特别适合复杂关系查询
完全托管服务，无需担心运维负担
与AWS生态无缝集成
高可用性和持久性保障

数据构建器(DataBuilder)配置

整体架构

Amundsen的数据构建流程遵循标准ETL模式：

Extractor：从数据源提取原始元数据
Transformer：将原始数据转换为Amundsen数据模型
Loader：将转换后的数据加载到中间存储
Publisher：将数据从中间存储发布到目标数据库

Neptune专用组件

1. FSNeptuneCSVLoader

这是Neptune专用的加载器，负责将GraphNode和GraphRelationship模型转换为Neptune批量加载器所需的CSV格式。

关键配置参数：

NODE_DIR_PATH = '生成的节点CSV文件存放路径'
RELATION_DIR_PATH = '生成的关系CSV文件存放路径'
FORCE_CREATE_DIR = False  # 是否覆盖已有文件
SHOULD_DELETE_CREATED_DIR = True  # 任务完成后是否删除生成的文件
JOB_PUBLISHER_TAG = '唯一任务标识'  # 用于区分不同任务产生的数据

2. NeptuneCSVPublisher

该组件负责将CSV文件导入Neptune数据库，利用Neptune的批量加载API实现高效数据导入。

工作流程：

将CSV文件上传至S3存储桶
发起批量加载请求
轮询加载状态直至完成或失败

关键配置参数：

NODE_FILES_DIR = '节点文件目录'
RELATION_FILES_DIR = '关系文件目录'
AWS_S3_BUCKET_NAME = 'S3存储桶名称'
AWS_BASE_S3_DATA_PATH = 'S3存储路径'
NEPTUNE_HOST = 'neptune-host:port'  # 无协议前缀
AWS_REGION = 'AWS区域'
AWS_IAM_ROLE_NAME = '用于批量加载的IAM角色'
STATUS_POLLING_PERIOD = 60  # 状态轮询间隔(秒)

搜索数据发布

为了使元数据可搜索，需要将Neptune中的数据同步到Elasticsearch集群：

NeptuneSearchDataExtractor：从Neptune提取数据
- 支持表(table)、用户(user)和仪表盘(dashboard)模型
- 可自定义查询逻辑
FSElasticsearchJSONLoader：将数据转换为Elasticsearch格式
ElasticsearchPublisher：将数据发布到Elasticsearch

示例配置：

extractor = NeptuneSearchDataExtractor()
extractor.configure({
    'ENTITY_TYPE_CONFIG_KEY': 'table',  # 提取表数据
    'JOB_PUBLISH_TAG_CONFIG_KEY': 'unique_tag'  # 可选任务过滤
})

陈旧数据清理

元数据随时间变化会产生陈旧数据，可使用neptune_staleness_removal_task进行清理：

task = NeptuneStalenessRemovalTask()
task.configure({
    'job_publish_tag': 'tag_to_remove',
    'stale_timestamp': datetime.now() - timedelta(days=30)
})

元数据服务(Metadata Service)配置

要使Amundsen元数据服务使用Neptune作为后端，需进行以下配置：

创建Neptune配置类，继承或参考默认配置

设置环境变量指向该配置类：

export METADATA_SVC_CONFIG_MODULE_CLASS=metadata_service.config.NeptuneConfig

关键环境变量：

PROXY_HOST=wss://<NEPTUNE_URL>:<NEPTUNE_PORT>/gremlin
AWS_REGION=us-west-2
S3_BUCKET_NAME=your-bucket-name
IGNORE_NEPTUNE_SHARD=True  # 使用默认数据构建器集成时必须设置