湖仓平台中心

🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。
✨杭州奥零数据科技官网:http://www.aolingdata.com
✨AllData开源项目:https://github.com/alldatacenter/alldata
✨Gitee组织:https://gitee.com/alldatacenter

摘要:湖仓平台中心基于开源项目Amoro建设,是一款湖仓一体化的数据管理平台,支持批流数据统一存储与计算,融合数据湖灵活性与数据仓库治理能力。内容主要为以下五部分:

💡Tips:关注「公众号」大数据商业驱动引擎

在这里插入图片描述
2.1 湖仓平台中心基于开源项目Amoro建设:
湖仓平台中心(Amoro)是一款湖仓一体化的数据管理平台,支持批流数据统一存储与计算,融合数据湖灵活性与数据仓库治理能力。其核心功能包括元数据统一管理、数据高效入湖、自优化存储、ACID事务支持及多引擎(Flink/Spark)无缝集成,助力企业构建高性价比、易维护的实时数据底座。

🔹Amoro开源项目:https://github.com/apache/amoro
🔹Amoro文档地址:https://amoro.apache.org/docs/latest/

2.2 湖仓平台中心功能特点:

  • 湖仓一体化管理
  • 多种格式支持
  • 核心架构组件强大
  • 生态集成与扩展
  • 存储与查询性能优化

在这里插入图片描述
💡部署步骤:
在这里插入图片描述
3.1 环境准备
🔹操作系统要求:Amoro支持Linux或macOS操作系统。对于Windows用户,建议使用WSL2(Windows Subsystem for Linux 2)以获得更好的兼容性。
🔹Java版本:Amoro使用Java 17版本,确保已安装并配置好Java环境。🔹Maven:用于构建项目,确保已安装并配置好Maven环境。
🔹Git:用于克隆项目代码,确保已安装并配置好Git环境。
🔹数据库:Amoro需要使用关系型数据库(如MySQL)作为元数据存储。确保已安装并配置好数据库,并创建好相应的数据库和用户。

3.2 获得源码
🔹版本选择:建议使用与AllData商业版兼容的Amoro版本。
在这里插入图片描述

3.3 编译构建前的关键准备

🔹环境依赖确认
Java环境:确保使用JDK 17,通过java -version验证。
Maven版本:建议Maven 3.8.4+,通过mvn -v验证。
网络配置:若使用私有仓库或需要代理,需提前配置settings.xml。

3.4 核心编译构建步骤

🔹进入项目根目录
在这里插入图片描述

🔹执行Maven构建命令
基础构建(跳过测试,快速生成部署包):
作用:清理旧构建文件并编译所有模块,生成target目录下的可执行包(如JAR或ZIP)。
适用场景:首次构建或验证环境。
在这里插入图片描述

🔹带测试的完整构建(需确保测试环境可用)
基础构建(跳过测试,快速生成部署包):
注意:测试可能依赖外部服务(如数据库、Kafka),需提前配置。
在这里插入图片描述

🔹指定版本参数(可选)
Hadoop版本(如3.3.4):
在这里插入图片描述

Flink版本(如1.17.0):
在这里插入图片描述

Spark版本(如3.3.2)
适用场景:需与特定大数据组件版本兼容时。
在这里插入图片描述

3.5 构建结果验证
🔹检查输出文件构建成功后,在amoro-distribution/target目录下生成amoro--bin.zip或amoro--bin.tar.gz。

🔹验证文章完整性解压后检查关键目录:
bin/:启动脚本(如ams.sh)。conf/:配置文件模板(如config.yaml)。lib/:依赖JAR包。

3.6 高级构建技巧

🔹并行构建加速
在这里插入图片描述

🔹生成IDE项目文件–IntelliJ IDEA:
在这里插入图片描述

–Eclipse:
在这里插入图片描述

🔹自定义构建配置
修改pom.xml中的节点,覆盖默认版本号(如<flink.version>1.18.0</flink.version>)。

3.7 部署及运行配置

🔹解压部署包:
如果构建后得到的是压缩包,需要先解压到指定目录。

🔹配置数据库连接:
编辑Amoro的配置文件(如conf/config.yaml),配置数据库连接信息,包括数据库类型、JDBC驱动类、URL、用户名和密码等。

🔹配置服务端口:
根据需要,配置Amoro服务的端口号,如管理服务端口、HTTP服务端口等。

🔹配置优化器:
如果需要使用Amoro的自优化功能,需要配置优化器(Optimizer)的相关参数,如优化器组(Optimizer Group)、并行度、内存大小等。

🔹启动服务:
使用Amoro提供的启动脚本(如bin/ams.sh)启动服务。确保启动脚本具有执行权限。

3.8 可选配置

🔹高可用配置:
如果需要实现Amoro的高可用性,可以配置主从模式,并依赖外部Zookeeper集群进行主节点选举。

🔹外部Catalog集成:
如果需要与外部Catalog服务(如Hive Metastore、AWS Glue Catalog等)集成,需要配置相应的Catalog信息,并上传必要的配置文件(如hive-site.xml)。

🔹存储类型配置:
根据需要,配置存储类型(如Hadoop、S3等),并上传相应的配置文件(如core-site.xml、hdfs-site.xml等)。

🔹认证配置:
如果需要启用认证功能,可以配置认证类型(如SIMPLE、KERBEROS等),并提供相应的认证信息。

3.9 验证与测试

🔹验证服务状态:
使用Amoro提供的Web管理界面或命令行工具验证服务状态,确保服务已成功启动并正常运行。

🔹测试功能:
通过创建表、插入数据、查询数据等操作测试Amoro的功能,确保各项功能正常工作。

在这里插入图片描述
4.1 湖仓平台中心-功能概览
请添加图片描述
4.2 湖仓探索分析-CreateTable
请添加图片描述
4.3 湖仓探索分析-DeleteTable
请添加图片描述

4.4 湖仓探索分析-EditTable
请添加图片描述

4.5 湖仓探索分析-SetProperties
请添加图片描述

4.6 湖仓探索分析-UnsetProperties
请添加图片描述
4.7 湖仓探索分析-ShowDatabases
请添加图片描述

4.8 湖仓探索分析-ShowTables
请添加图片描述

4.9 湖仓探索分析-Describe
请添加图片描述

4.10 湖仓目录管理
请添加图片描述

4.11 新建内外部数据目录
请添加图片描述

4.12 湖仓数据表管理
请添加图片描述
请添加图片描述

4.13 湖仓优化器
请添加图片描述

4.14 创建湖仓优化器-FlinkGroupProd
请添加图片描述

4.15 创建湖仓优化器-SparkGroupCente
请添加图片描述

4.16 湖仓优化器组
请添加图片描述
请添加图片描述
请添加图片描述

4.17 系统设置
请添加图片描述

4.18 容器设置
请添加图片描述

请添加图片描述

5.1 依赖下载失败
🔹原因:Maven中央仓库或私有仓库不可达。
🔹解决:检查网络连接或配置代理。手动下载依赖并安装到本地仓库(mvn install:install-file)。

5.2 参数用例失败
🔹原因:测试环境未配置或数据不一致。
🔹解决:使用-DskipTests跳过测试。检查测试配置(如src/test/resources下的配置文件)。

5.3 版本冲突
🔹原因:依赖的第三方库版本不兼容。
🔹解决:通过mvn dependency:tree分析依赖树。使用排除冲突依赖。

5.4 内存不足
🔹现象:构建过程中出现OutOfMemoryError。
🔹解决:增加Maven内存:export MAVEN_OPTS=“-Xmx2g -XX:MaxMetaspaceSize=512m”。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AllData公司负责人

AllData数据中台知识星球

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值