Amundsen元数据管理平台Docker部署指南

Amundsen元数据管理平台Docker部署指南

amundsen Amundsen is a metadata driven application for improving the productivity of data analysts, data scientists and engineers when interacting with data. amundsen 项目地址: https://gitcode.com/gh_mirrors/am/amundsen

前言

Amundsen是一个由Lyft开源的元数据管理和数据发现平台,它通过构建数据目录帮助数据从业者快速发现和理解企业数据资产。本文将详细介绍如何使用Docker快速部署Amundsen基础环境,适合初次接触该平台的技术人员参考。

环境准备

在开始部署前,请确保满足以下条件:

  1. 操作系统:支持Linux/macOS/Windows(Windows需WSL2支持)
  2. Docker引擎:版本17.05或更高
  3. Docker Compose:版本1.25.0或更高
  4. 磁盘空间:至少预留3GB可用空间
  5. 内存资源:建议分配4GB以上内存给Docker引擎

部署步骤

1. 获取Amundsen代码

通过版本控制工具获取Amundsen项目代码及其子模块:

git clone --recursive <项目仓库地址>

2. 选择后端存储方案

Amundsen支持两种主要的后端存储方案:

方案A:Neo4j图数据库(推荐初学者使用)
docker-compose -f docker-amundsen.yml up
方案B:Atlas元数据服务(适合企业级部署)
docker-compose -f docker-amundsen-atlas.yml up

注意:Atlas服务启动较慢,需等待控制台输出"Amundsen Entity Definitions Created..."提示后再进行操作。

3. 导入示例数据(仅Neo4j方案)

对于Neo4j后端,需要单独导入示例数据:

  1. 创建并激活Python虚拟环境
  2. 安装依赖包
  3. 执行数据加载脚本

具体命令序列:

python3 -m venv venv
source venv/bin/activate
pip3 install --upgrade pip
pip3 install -r requirements.txt
python3 setup.py install
python3 example/scripts/sample_data_loader.py

4. 访问Web界面

完成部署后,可通过以下地址访问各服务:

  • 前端界面:http://localhost:5000
  • Neo4j管理界面:http://localhost:7474
  • Elasticsearch API:http://localhost:9200

功能验证

1. 搜索功能测试

在搜索框中输入"test",系统应返回相关测试数据。

2. 精确匹配测试

搜索"test_table1"应能精确匹配到测试表记录。

3. 数据存储验证

在Neo4j控制台中执行以下Cypher查询:

MATCH (n:Table) RETURN n LIMIT 25

应能看到25条表记录。

4. 元数据服务验证

访问以下URL验证元数据服务是否正常:

  • http://localhost:5000/table_detail/gold/hive/test_schema/test_table1
  • http://localhost:5000/table_detail/gold/dynamo/test_schema/test_table2

常见问题排查

1. Elasticsearch内存不足

错误表现:vm.max_map_count [65530] is too low

解决方案:

  1. 编辑/etc/sysctl.conf文件
  2. 添加vm.max_map_count=262144
  3. 执行sysctl -p使配置生效
  4. 重启Docker服务

2. 文件权限问题

错误表现:Failed to create node environment

解决方案:

chown -R 1000:1000 .local/elasticsearch

3. 连接拒绝错误

检查所有容器是否正常运行:

docker ps

确保以下服务可访问:

  • Neo4j: http://localhost:7474
  • Elasticsearch: http://localhost:9200

4. 文件描述符限制

在docker-amundsen-local.yml中添加:

ulimits:
  nofile:
    soft: 65535
    hard: 65535

5. 内存不足错误(Docker error 137)

调整Docker引擎内存分配:

  1. 进入Docker设置
  2. 资源 → 高级
  3. 将内存调整为至少3GB
  4. 重启Docker服务

结语

通过本文介绍的Docker部署方式,您可以快速搭建Amundsen的本地开发环境。实际生产部署时,需要考虑数据安全、性能优化和高可用等因素,建议参考官方文档进行更详细的配置。成功部署后,您可以通过Amundsen强大的搜索和元数据管理功能,显著提升数据发现和理解效率。

amundsen Amundsen is a metadata driven application for improving the productivity of data analysts, data scientists and engineers when interacting with data. amundsen 项目地址: https://gitcode.com/gh_mirrors/am/amundsen

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

甄墨疆

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值