使用数据治理工具
您可以将数据收集器配置为与数据治理工具集成,从而了解数据移动 - 数据来自何处、将要去哪里以及谁在与之交互。
数据治理工具集成可通过付费订阅获得。有关详细信息,请联系流集。
Cloudera Navigator
如果您使用云端管理器并安装了云端导航器,则可以将数据收集器配置为将有关正在运行的管道的元数据发布到云端导航器。发布元数据时,数据收集器使用基本身份验证向云传送导航器发出 HTTPS 请求。数据以 JSON 格式发送。
阿帕奇地图集
如果您安装了 Apache 地图集,则可以配置数据收集器以将有关正在运行的管道的元数据发布到阿帕奇地图集。发布元数据时,数据收集器使用阿帕奇卡将元数据发送到阿帕奇地图集。数据以 JSON 格式发送。
然后,您可以使用云端导航器或 Apache 地图集浏览管道元数据,包括查看元数据的谱系图。
数据收集器使用单独的线程将元数据发布到数据治理工具 , 因此启用元数据发布对正在运行的管道线程的影响最小。每个管道在管道启动和停止时发布元数据。某些源和目标仅发布元数据一次,通常是在初始化时。但是,某些阶段在每次创建新对象时都会发布元数据 - 例如,当 Hadoop FS 或本地 FS 目标创建新的输出文件时。
支持的阶段
目前,只有某些管道阶段支持将元数据发布到数据治理工具。
数据收集器发布所有正在运行的管道中所有受支持阶段的元数据。如果有多个运行管道的数据收集器,请将每个数据收集器配置为将元数据发布到同一治理工具实例。
- 亚马逊 S3 源
- 开发数据生成器源
- 目录来源
- 哈多普FS起源
- JDBC 查询消费者源
- 卡夫卡消费者起源
- 卡夫卡多主题消费者起源
- 客户端来源
- 哈多普 FS 目的地
- 本地金融服务目的地
- 总部基地目的地
- 配置单元流式处理目标
- 卡夫卡生产者目的地
- 库杜目的地
当管道包含不受支持的阶段时,数据调控工具不会在沿袭图中将该阶段显示为输入或输出。例如,如果正在运行的管道包含不受支持的源和 Hadoop FS 目标,则数据调控工具会将管道显示为具有 0 个输入和多个输出 - 每个生成的输出文件对应一个输出。如果正在运行的管道不包含任何受支持的源或目标,则数据调控工具会将管道显示为具有 0 个输入和 0 个输出。
Cloudera Navigator
您可以将数据收集器配置为将有关正在运行的管道的元数据发布到 Cloudera 导航器。然后,使用 Cloudera 导航器浏览管道元数据,包括查看元数据的沿袭图。
数据治理工具集成可通过付费订阅获得。有关详细信息,请联系流集。
要将数据收集器与云端导航器集成,请下载云端导航器舞台库并将其安装为自定义舞台库。然后,将数据收集器配置为连接到云传送导航器。
先决条件
在启用数据收集器将管道元数据发布到 Cloudera 导航器之前,必须满足以下先决条件:
验证数据收集器是否安装了所需的 Cloudera CDH 阶段库版本。
要连接到云端导航器并将其发布到云端导航器,数据收集器需要云端管理器 - 支持版本 5.10 到 5.15。
要验证数据收集器是否安装了有效的 Cloudera CDH 舞台库,请单击程序包管理器图标 () 以显示已安装阶段库的列表。如果未安装所需的库版本,请在配置数据收集器以将管道元数据发布到 Cloudera 导航器之前安装库。
将云传送导航器数据管理角色添加到您的云传送管理器集群。
将以下导航员角色添加到 Cloudera 管理服务:- Cloudera 导航器审核服务器角色
- Cloudera 导航器元数据服务器角色
有关说明,请参阅云端管理器文档。
步骤 1.下载并安装舞台库
下载并安装 Cloudera 导航器舞台库作为自定义舞台库。
- 使用您从 StreamSets 收到的电子邮件中提供的链接,下载包含适用于您的云端管理器版本的云端导航器阶段库的压缩包。
例如,如果数据收集器安装了 Cloudera CDH 舞台库版本 5.14,请下载 流集数据收集器cm_5_14-lib-1.3.0.tgz 文件。
- 解压缩压缩包。
压缩包被解压缩到以下目录中:
<span style="color:#333333"><span style="background-color:#eeeeee"><code><stage library name>/lib/</code></span></span>
例如:<span style="color:#333333"><span style="background-color:#eeeeee"><code>streamsets-datacollector-cm_5_14-lib/lib/</code></span></span>
- 在运行数据收集器的每个节点上,为自定义阶段库创建一个本地目录。
例如,您可以在以下位置创建自定义舞台库目录:
<span style="color:#333333"><span style="background-color:#eeeeee"><code>/opt/sdc-user-libs</code></span></span>
- 在运行数据收集器的每个节点上,将提取的 Cloudera 导航器阶段库复制到为USER_LIBRARIES_DIR环境变量定义的目录中,如下所示:
<span style="color:#333333"><span style="background-color:#eeeeee"><code>/opt/sdc-user-libs/<stage library name>/lib/</code></spa