流集数据收集器配置:安装外部库

本文详述如何在数据收集器中安装外部库,包括设置外部目录、使用包管理器和手动安装,以便于不同阶段的库兼容。涉及JDBC驱动、HadoopFS、Spark等场景的库安装指南。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

安装外部库

安装外部库以使其可用于数据收集器阶段。为特定舞台使用多个舞台库时,若要使外部库可用于舞台的所有版本,请为每个舞台库安装外部库。

可以使用数据收集器用户界面中的程序包管理器安装外部库,也可以手动安装它们。

您可以为以下阶段安装外部库:
  • 在使用以下阶段之前,请为要使用的实现安装 JDBC 驱动程序:
    • JDBC 多表消费者来源
    • JDBC 查询消费者源
    • 二进制日志源
    • 甲骨文 CDC 客户端来源
    • SQL 服务器 CDC 客户端源
    • SQL 服务器更改跟踪源
    • 天睿消费者来源
    • 日本电信查找处理器
    • 京东半导体三通处理器
    • SQL 解析器处理器,当使用数据库解析架构时
    • JDBC 生产者目标
    • 内存数据库快速加载程序目标
    • JDBC 查询执行器

    例如,要将 JDBC 查询使用者或 JDBC 创建器与 Oracle 配合使用,请安装 Oracle JDBC 驱动程序。

  • 在使用 Hadoop FS 源从非 HDFS 系统读取数据之前,请安装所有必需的文件系统应用程序 JAR 文件。有关要安装的文件的详细信息,请参阅文件系统文档。
  • 在使用 Spark 计算器处理器之前,请安装 Spark 应用程序 JAR 文件以及流集数据收集器 API、流集数据收集器、spark-api 和火花核心库以外的任何依赖项。
  • 您可以安装外部 Java 库,以从脚本处理器调用外部 Java 代码:Groovy、Java 和 Jython 赋值器。
  • 您可以安装数据堆栈企业 (DSE) Java 驱动程序,以将卡桑德拉目标配置为使用 DSE 用户名和密码身份验证或 Kerberos 身份验证。
  • 在使用谷歌大表目标之前,请安装无聊的SSL库。
  • 在使用 JMS 使用者源或 JMS 创建者目标之前,请为您正在使用的实现安装 JMS 驱动程序。
  • 您可以在为执行程序选择的阶段库下安装 Impala JDBC 驱动程序。有关详细信息,请参阅安装 Impala 驱动程序

使用包管理器安装

要使用程序包管理器安装外部库,请完成以下常规步骤:

  1. 设置外部目录以存储库。
  2. 使用数据收集器中的包管理器安装外部库。

步骤 1.设置外部目录

在安装外部库之前,请为这些库设置数据收集器安装目录外部的本地目录。使用外部目录在数据收集器升级后允许使用这些库。使用安装类型所需的过程。

设置转速和压缩包

在为 RPM 或压缩包安装安装外部库之前,请设置一个外部目录来存储这些库。

  1. 在数据收集器安装目录外部创建一个本地目录。
    例如,如果在以下目录中安装了数据收集器:则可以在以下位置创建外部目录:
    <span style="color:#333333"><span style="background-color:#eeeeee"><code>/opt/sdc/</code></span></span>
    <span style="color:#333333"><span style="background-color:#eeeeee"><code>/opt/sdc-extras</code></span></span>
  2. 授予启动数据收集器的用户对外部目录的所有权。
    例如,如果使用名为“数据收集器”作为服务运行的默认系统用户和组,请使用以下命令将外部目录和目录中所有文件的所有者更改为 : sdc sdc:sdc
    <span style="color:#333333"><span style="background-color:#eeeeee"><code>chown -R sdc:sdc /opt/sdc-extras</code></span></span>
  3. 将STREAMSETS_LIBRARIES_EXTRA_DIR环境变量添加到相应的文件,并将其指向外部目录。

    使用安装类型所需的方法修改环境变量

    按如下方式设置环境变量:

    <span style="color:#333333"><span style="background-color:#eeeeee"><code>export STREAMSETS_LIBRARIES_EXTRA_DIR="<external directory>"</code></span></span>

    例如:

    <span style="color:#333333"><span style="background-color:#eeeeee"><code>export STREAMSETS_LIBRARIES_EXTRA_DIR="/opt/sdc-extras/"</code></span></span>
  4. 使用缺省情况下启用的 Java 安全性管理器时,请更新数据收集器安全性策略以包括外部目录,如下所示:
    1. 在数据收集器配置目录中,打开安全策略文件 。$SDC_CONF/sdc-security.policy
    2. 将以下行添加到文件中:例如:
      <span style="color:#333333"><span style="background-color:#eeeeee"><code>// user-defined external directory
      grant codebase "file://<external directory>-" {
        permission java.security.AllPermission;
      };</code></span></span>
      <span style="color:#333333"><span style="background-color:#eeeeee"><code>// user-defined external directory
      grant codebase "file:///opt/sdc-extras/-" {
        permission java.security.AllPermission;
      };</code></span></span>
  5. 重新启动数据收集器。

设置云端管理器

在为 Cloudera 管理器安装安装外部库之前,请设置一个外部目录来存储这些库。

  1. 在云端管理器中,选择流集服务,然后单击配置
  2. “配置”页上的“数据收集器高级配置代码段(sdc-env.sh 的安全阀)”字段中,添加STREAMSETS_LIBRARIES_EXTRA_DIR环境变量并将其指向外部目录,如下所示:
    <span style="color:#333333"><span style="background-color:#eeeeee"><code>export STREAMSETS_LIBRARIES_EXTRA_DIR="<external directory>"</code></span></span>

    例如:

    <span style="color:#333333"><span style="background-color:#eeeeee"><code>export STREAMSETS_LIBRARIES_EXTRA_DIR="/opt/sdc-extras/"</code></span></span>
    默认情况下,路径为 。/var/lib/sdc
  3. 在运行数据收集器的每个节点上创建目录。/opt/sdc-extras/
  4. 授予启动数据收集器的用户对添加到每个节点的外部目录的所有权。
    例如,如果使用名为“数据收集器”作为服务运行的默认系统用户和组,请使用以下命令将外部目录和目录中所有文件的所有者更改为 : sdc sdc:sdc
    <span style="color:#333333"><span style="background-color:#eeeeee"><code>chown -R sdc:sdc /opt/sdc-extras</code></span></span>
  5. 使用缺省情况下启用的 Java 安全性管理器时,请更新 sdc-security.policy 的数据收集器高级配置代码段(安全阀)属性以包含外部目录,如下所示:
    <span style="color:#333333"><span style="background-color:#eeeeee"><code>// user-defined external directory
    grant codebase "file://<external directory>-" {
      permission java.security.AllPermission;
    };</code></span></span>
    例如:
    <span style="color:#333333"><span style="background-color:#eeeeee"><code>// user-defined external directory
    grant codebase "file:///opt/sdc-extras/-" {
      permission java.security.AllPermission;
    };</code></span></span>
  6. 重新启动数据收集器。

步骤2.安装外部库

设置外部目录后,使用数据收集器中的程序包管理器安装外部库。

  1. 在数据收集器的右上角工具栏中,单击“程序包管理器”图标:
  2. 在导航面板中,单击“外部库”
    数据收集器列出当前安装的任何外部库。
  3. 紧挨着右上角工具栏下方,单击“安装外部库”图标:
  4. “安装外部库”对话框中,选择需要访问外部库的舞台库。
    例如,如果要为 JDBC 多表使用者源安装 JDBC 驱动程序,请选择 JDBC 阶段库。如果要为 Groovy 测评器处理器安装外部 Java 库,请选择 Groovy 舞台库。
  5. 浏览以选择要安装的外部库,然后单击“打开”。
  6. 若要将外部库安装到指定的阶段库,请单击“上载”。
    数据收集器安装外部库并显示重新启动数据收集器的消息。
  7. 若要安装其他外部库,请单击“取消”,然后对需要访问外部库的每个阶段库重复步骤 3 - 6
    例如,假设您要将外部库与 Spark Evaluator 处理器配合使用,但您使用了两个版本的处理器 - 每个版本都来自不同的舞台库。要使外部库对两个处理器版本都可用,必须将外部库上载到两个阶段库。
  8. 安装所需的所有外部库后,请通过以下方式之一重新启动数据收集器:
    • 如果从命令行手动启动了数据收集器,请单击“安装外部库”窗口中的“重新启动数据收集器”。
    • 如果将数据收集器作为服务启动,则必须使用命令行重新启动。单击“安装外部库”窗口中的“取消”,然后运行以下命令:
      <span style="color:#333333"><span style="background-color:#eeeeee"><code>service sdc restart</code></span></span>

 

 

 

手动安装

若要手动安装外部库,请使用安装类型所需的过程。

手动安装 RPM 和压缩包

要手动安装用于 RPM 或压缩包安装的外部库,请执行以下步骤:

  1. 在数据收集器安装目录外部创建一个本地目录。
    例如,如果在以下目录中安装了数据收集器:则可以在以下位置创建外部目录:
    <span style="color:#333333"><span style="background-color:#eeeeee"><code>/opt/sdc/</code></span></span>
    <span style="color:#333333"><span style="background-color:#eeeeee"><code>/opt/sdc-extras</code></span></span>
  2. 根据舞台库名称为每组外部库创建子目录,如下所示:
    <span style="color:#333333"><span style="background-color:#eeeeee"><code>/opt/sdc-extras/<stage library name>/lib/</code></span></span>
    例如,要为 JDBC 舞台库中包含的阶段安装驱动程序,请创建以下子目录:
    <span style="color:#333333"><span style="background-color:#eeeeee"><code>/opt/sdc-extras/streamsets-datacollector-jdbc-lib/lib/</code></span></span>

    要同时为 JMS 阶段库中包含的阶段安装驱动程序,请创建以下子目录:

    <span style="color:#333333"><span style="background-color:#eeeeee"><code>/opt/sdc-extras/streamsets-datacollector-jms-lib/lib/</code></span></span>
    注意:如果对特定阶段使用多个阶段库,并且希望将外部库与所有阶段库一起使用,则必须为每个阶段库安装外部库。

    例如,假设您要将外部库与 Spark Evaluator 处理器配合使用,但您使用了两个版本的处理器 - 每个版本都来自不同的舞台库。要使外部库对两个处理器版本都可用,必须将外部库上载到两个阶段库。

    提示:有关舞台库名称的列表,请参阅 可用的舞台库
  3. 将外部库复制到相应的子目录。
  4. 将STREAMSETS_LIBRARIES_EXTRA_DIR环境变量添加到相应的文件,并将其指向外部目录。

    使用安装类型所需的方法修改环境变量

    按如下方式设置环境变量:

    <span style="color:#333333"><span style="background-color:#eeeeee"><code>export STREAMSETS_LIBRARIES_EXTRA_DIR="<external directory>"</code></span></span>

    例如:

    <span style="color:#333333"><span style="background-color:#eeeeee"><code>export STREAMSETS_LIBRARIES_EXTRA_DIR="/opt/sdc-extras/"</code></span></span>
  5. 使用缺省情况下启用的 Java 安全性管理器时,请更新数据收集器安全性策略以包括外部目录,如下所示:
    1. 在数据收集器配置目录中,打开安全策略文件 。$SDC_CONF/sdc-security.policy
    2. 将以下行添加到文件中:例如:
      <span style="color:#333333"><span style="background-color:#eeeeee"><code>// user-defined external directory
      grant codebase "file://<external directory>-" {
        permission java.security.AllPermission;
      };</code></span></span>
      <span style="color:#333333"><span style="background-color:#eeeeee"><code>// user-defined external directory
      grant codebase "file:///opt/sdc-extras/-" {
        permission java.security.AllPermission;
      };</code></span></span>
  6. 重新启动数据收集器。

手动安装云端管理器

要使用 Cloudera 管理器手动安装外部库以进行安装,请执行以下步骤:

  1. 在云端管理器中,选择流集服务,然后单击配置
  2. “配置”页上的“数据收集器高级配置代码段(sdc-env.sh 的安全阀)”字段中,添加STREAMSETS_LIBRARIES_EXTRA_DIR环境变量并将其指向外部目录,如下所示:
    <span style="color:#333333"><span style="background-color:#eeeeee"><code>export STREAMSETS_LIBRARIES_EXTRA_DIR="<external directory>"</code></span></span>

    例如:

    <span style="color:#333333"><span style="background-color:#eeeeee"><code>export STREAMSETS_LIBRARIES_EXTRA_DIR="/opt/sdc-extras/"</code></span></span>
    默认情况下,路径为 。/var/lib/sdc
  3. 在运行数据收集器的每个节点上,根据阶段库名称为每组外部库创建子目录,如下所示:
    <span style="color:#333333"><span style="background-color:#eeeeee"><code>$STREAMSETS_LIBRARIES_EXTRA_DIR/<stage library name>/lib/</code></span></span>
    例如,要安装 JDBC 的驱动程序,请在每个节点上创建以下子目录:
    <span style="color:#333333"><span style="background-color:#eeeeee"><code>/opt/sdc-extras/streamsets-datacollector-jdbc-lib/lib/</code></span></span>
    要同时安装 JMS 的驱动程序,请在每个节点上创建以下子目录:
    <span style="color:#333333"><span style="background-color:#eeeeee"><code>/opt/sdc-extras/streamsets-datacollector-jms-lib/lib/</code></span></span>
    注意:如果对特定阶段使用多个阶段库,并且希望将外部库与所有阶段库一起使用,则必须为每个阶段库安装外部库。

    例如,假设您要将外部库与 Spark Evaluator 处理器配合使用,但您使用了两个版本的处理器 - 每个版本都来自不同的舞台库。要使外部库对两个处理器版本都可用,必须将外部库上载到两个阶段库。

    提示:有关舞台库名称的列表,请参阅 可用的舞台库
  4. 将外部库复制到每个节点上的相应子目录中。
  5. 使用缺省情况下启用的 Java 安全性管理器时,请更新 sdc-security.policy 的数据收集器高级配置代码段(安全阀)属性以包含外部目录,如下所示:
    <span style="color:#333333"><span style="background-color:#eeeeee"><code>// user-defined external directory
    grant codebase "file://<external directory>-" {
      permission java.security.AllPermission;
    };</code></span></span>
    例如:
    <span style="color:#333333"><span style="background-color:#eeeeee"><code>// user-defined external directory
    grant codebase "file:///opt/sdc-extras/-" {
      permission java.security.AllPermission;
    };</code></span></span>
  6. 重新启动数据收集器。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

JAVASoftEngineer

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值