apache atlas

环境

ubuntu20.04; atlas1.4.x
hadoop2.6

概述

Altlas 是一组可扩展和可收缩核心治理服务 - - 使企业有效高效满足他们可塑性需求,在hadoop中允许集成到整体企业数据生态.

Apache Atlas提供开源的元数据管理和治理能力, 为组建他们的资产目录,分类,管理这些资产和为数据科学,数据分析和数据管理团队 提供围绕这些数据资产协作能力.

特性

元数据类型和实例

  • 为多样的hadoop和非hadoop预定义类型
  • 为元数据定义新类型来管理的能力
  • 类型和基础属性,复杂属性,对象引用;可以从其它类型继承
  • 类型的实例称为entities, 捕获元数据对象详情和他们的关系.
  • REST API与类型和实例一起工作,允许更容易集成.

分类

  • 动态创建分类的能力 - 像PII, EXPIRES_ON, DATA_QUALITY, SENSITIVE
  • 分类可以包含属性 - 像在分类中EXPIRES_ON 中expiry_date 属性
  • Entities 可以关联多个分类, 开启后容易发现并且安全执行
  • 分类的传播通过血缘 - 自动保证分类随着数据增长而各自处理

血缘

  • 直观的UI来查看数据血缘,只要移动通过不同处理
  • REST APIs来访问和更新血缘

搜索 / 发现

  • 直观的UI来通过类型搜索entities,分类,属性值或任一文本
  • 丰富的REST APIs来通过复杂的条件搜索
  • 类SQL语言来搜索entities - 领域特定语言(DSL)

安全与数据屏蔽

  • 细粒度安全为访问元数据, 开启entity 实体访问和操作像 add/update/remove的分类操作
  • 集成Apache Ranger开启授权/数据屏蔽数据的访问,基础分类关联atlas中的entities. 例如:
    • 谁可以访问数据分类 像PII, SENSITIVE
    • 自定义服务用户只能看到最后数个数字在例分类是NATIONAL_ID

快速开始

安装 & 编译

Installing Apache Atlas

require
maven 版本3.5及以上版本& Java 8 (151) 及以上

sudo apt update sudo 
apt install nodejs npm

build

tar xvfz apache-atlas-1.0.0-sources.tar.gz
cd apache-atlas-sources-1.0.0/
export MAVEN_OPTS="-Xms2g -Xmx2g"
mvn clean -DskipTests install

Packaging Apache Atlas

mvn clean -DskipTests package -Pdist

介绍

快速开始是一个简单客户端在下例之后来增加几个简单定义类型模式,如下图.它也增加简单entities跟随traits 展示在下图.

类型定义例子
在这里插入图片描述

图实例例子
在这里插入图片描述

运行例子

例子增加简单的类型和实体化伴随在上图中的一些特征

bin/quick-start.sh

仪表盘

用来搜索的仪表盘

http://localhost:21000/

API 文档

开发者设置文档

### Apache Atlas 简介与使用指南 Apache Atlas 是一个数据治理框架,旨在帮助组织更好地管理和理解他们的大数据生态系统中的数据资产[^2]。它提供了用于发现、分类、血缘追踪以及策略实施的数据生命周期管理解决方案。 #### 核心功能 - **元数据管理**:支持对大数据生态系统中各种元数据的管理,包括表、列、文件等。 - **数据分类**:通过定义和应用标签来对数据进行分类,便于后续的管理和策略实施。 - **数据血缘**:跟踪数据从源到目标的流动过程,帮助用户了解数据的变化和依赖关系。 - **搜索与发现**:提供强大的搜索功能,使用户能够快速找到所需的数据资产。 - **安全与合规**:支持基于角色的访问控制(RBAC),确保敏感数据的安全性[^4]。 #### 安装与启动 Apache Atlas 的安装通常涉及以下几个方面: 1. 下载并解压 Apache Atlas 的二进制包或源代码包。 2. 配置 `conf` 目录下的重要配置文件 `atlas-application.properties`[^1]。此文件包含数据库连接、服务端口等关键参数。 3. 使用通用脚本启动或停止 Atlas 服务。例如,通过以下命令启动服务: ```bash ./atlas-daemon.sh start ``` #### 示例配置 以下是 `atlas-application.properties` 文件中常见的配置项示例: ```properties # 数据库连接配置 atlas.jdbc.driverClassName=com.mysql.cj.jdbc.Driver atlas.jdbc.url=jdbc:mysql://localhost:3306/atlas?useSSL=false&serverTimezone=UTC atlas.jdbc.username=root atlas.jdbc.password=password # 服务端口配置 atlas.server.port=21000 ``` #### 快速开始 在安装完成后,可以通过浏览器访问 Atlas 的仪表盘界面,通常地址为 `http://<host>:21000`。仪表盘提供了直观的操作界面,用于查看元数据、血缘关系以及其他相关信息[^4]。 ```python import requests # 示例:调用 Atlas API 获取实体信息 url = "http://localhost:21000/api/atlas/v2/entity/guid/<guid>" response = requests.get(url) if response.status_code == 200: entity_data = response.json() print(entity_data) else: print(f"Error: {response.status_code}") ``` ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值