最新消息
3.10.0 中的新增功能
起源
此版本包括以下新源:- Groovy 脚本 - 运行 Groovy 脚本以创建数据收集器记录。
- 脚本 - 运行脚本以创建数据收集器记录。
- Jython 脚本 - 运行 Jython 脚本以创建数据收集器记录。
- 镍氢 HTTP 服务器 - 侦听来自 NiFi 处理器的请求并处理 NiFi 流文件。
- SQL 服务器 CDC 客户端 - 源现在具有两个新的记录标头属性:
jdbc.cdc.source_schema_name
- 存储源架构。jdbc.cdc.source_name
- 存储源表。
此外,源不再需要您安装 JDBC 驱动程序。数据收集器现在包括微软 SQL Server JDBC 驱动程序。
- SQL 服务器更改跟踪 - 源不再需要您安装 JDBC 驱动程序。数据收集器现在包括微软 SQL Server JDBC 驱动程序。
处理器
此版本包括对以下处理器的增强:- 时髦的评估器、JavaScript 评估程序和 Jython 评估器 - 这些脚本处理器现在支持以下内容:
- 用户定义的参数 - 在“高级”选项卡上,输入参数和值。在脚本中,使用字典访问该值。
sdc.userParams
- 全屏脚本编辑 - 将光标放在脚本字段中,按 F11 或 Esc 键(具体取决于您的操作系统)以切换全屏编辑。
- 用户定义的参数 - 在“高级”选项卡上,输入参数和值。在脚本中,使用字典访问该值。
目的地
此版本包括对以下目标的增强功能:- Cassandra - 目标有四个新属性,可帮助您调试目标问题:连接超时、读取超时、一致性级别和记录慢速查询。
- 兔子 MQ 创建者 - 目标具有新的“设置过期时间”属性,在“兔子 MQ”选项卡上设置 AMQP 消息属性时可用。清除“设置过期时间”属性以禁用目标发送的邮件的过期时间。
遗嘱 执行 人
此版本包括对以下执行程序的增强:- JDBC 查询 - 执行器现在可以并行运行查询以提高吞吐量。在“高级”选项卡上,选择“启用并行查询”属性,以使执行程序在与数据库的每个连接上同时运行查询。
数据格式
此版本包括对以下数据格式的增强:- 分隔数据格式 - 现在可以指定数据收集器何时在生成的分隔数据中插入引号。当您为分隔数据选择自定义分隔符格式时,写入分隔数据的数据生成器处理器和目标在“数据格式”选项卡上包括新的“报价模式”属性。配置“报价模式”属性以生成引用所有字段、仅包含特殊字符的字段或不包含字段的数据。
- Excel 数据格式 - 在读取 Excel 数据格式的源中,现在可以将源配置为从工作簿中的所有工作表或工作簿中的特定工作表读取。此外,还可以将源配置为跳过没有相应标头值的单元格。
表达式语言
此版本包括以下新的字段函数:f:index()
- 返回父列表字段中的索引。如果字段不在列表中,则返回 -1。f:parentPath()
- 返回父字段的路径。f:parent()
- 返回父字段。f:getSiblingWithName(<name>)
- 返回名称匹配的同级字段,如果该字段存在。<name>
f:hasSiblingWithName(<name>)
- 如果存在名称匹配的同级字段,则返回。true
<name>
f:hasSiblingWithValue(<name>, <value>)
- 如果存在名称匹配且值匹配 的同级字段,则返回该字段。true
<name>
<value>
数据收集器配置
此版本包括以下数据收集器配置增强功能:- 数据收集器配置文件 sdc.属性包含一个新的特定于阶段的属性 ,您可以在其中列出数据收集器自动为所有管道加载的 JDBC 驱动程序。
stage.conf_com.streamsets.pipeline.stage.jdbc.drivers.load
舞台库
此版本包括以下阶段库增强功能:- 新舞台库 - 此版本包括以下新舞台库:
舞台库名称 描述: __________ streamsets-datacollector-cdh_6_1-lib 对于 Cloudera CDH 版本 6.1 分发的阿帕奇哈多普。 streamsets-datacollector-cdh_6_2-lib 对于 Cloudera CDH 版本 6.2 分发的阿帕奇哈多普。 streamsets-datacollector-cdh_spark_2_3_r3-lib 适用于由 Spark 2.3 版本 3 提供支持的 CDS 的 Cloudera CDH 群集卡夫卡。 streamsets-datacollector-cdh_spark_2_3_r4-lib 适用于由 Spark 2.3 版本 4 提供支持的 CDS 的 Cloudera CDH 群集卡夫卡。 - 旧版舞台库 - 以下舞台库现在是旧版舞台库:
舞台库名称 描述: __________ streamsets-datacollector-hdp_2_6-lib 对于霍顿沃克斯版本2.6.x分发的阿帕奇哈多普。 streamsets-datacollector-hdp_2_6-flume-lib 对于霍顿沃克斯版本2.6.x版本的阿帕奇水槽。 streamsets-datacollector-hdp_2_6-hive2-lib 对于霍顿沃克斯版本2.6.x分发的阿帕奇蜂巢版本2.1。 streamsets-datacollector-hdp_2_6_1-hive1-lib 对于霍顿沃克斯版本2.6.1分发的阿帕奇蜂巢版本1.x。 streamsets-datacollector-hdp_2_6_2-hive1-lib 对于霍顿沃克斯版本2.6.2分发的阿帕奇蜂巢版本1.x。 超过两年的旧版舞台库不包括在数据收集器中。尽管不建议这样做,但您仍然可以安装较旧的舞台库。
如果有使用这些旧阶段库的管道,则需要更新管道以使用更新的阶段库或安装旧阶段库。有关详细信息,请参阅使用旧版阶段库更新管道。
3.9.0 中的新增功能
起源
此版本包括对以下来源的增强功能:-
Hadoop FS 独立和 MapR FS 独立 - 这些源包括以下选项卡和属性名称更改:
- “Hadoop FS”选项卡现在是“连接”选项卡。
- “Hadoop FS URI”属性现在是“文件系统 URI”属性。
- HDFS 用户属性现在是模拟用户属性。
- “Hadoop FS 配置目录”属性现在是“配置文件目录”属性。
- “Hadoop FS 配置”属性现在是“其他配置”属性。
与这些属性关联的功能未发生更改。
- JDBC 多表使用者 - 当主键或用户定义的偏移量列是具有时区数据类型的 Oracle 时间戳并且每行具有相同的时区时,源现在支持使用多线程分区处理。
- JMS 使用者 - 源现在支持从持久主题订阅读取消息,这些订阅一次只能有一个活动订阅者。
- SFTP/FTP/FTPS 客户端 - 源站以前称为 SFTP/FTP 客户端,现在支持 FTP(通过 SSL 的 FTP)。现在,在选择不支持后处理的整个文件数据格式后,后处理处于禁用状态。
处理器
此版本包括以下新处理器:- 库奇库查找 - 在库奇库服务器中查找文档,以使用数据丰富记录。
- Groovy 赋值器、JavaScript 赋值器和 Jython 赋值器 - 在将“高级”选项卡上的新“记录类型”属性设置为“数据收集器记录”后,这些脚本处理器现在支持直接使用数据收集器记录。
- Hive 元数据 - 处理器现在可以处理其本机格式的日期时间字段,也可以在处理数据之前将字段转换为字符串。默认情况下,处理器以本机格式处理日期时间字段。以前,处理器始终将日期时间字段转换为字符串。
- 日志分析器 - 处理器现在具有新的“数据格式”选项卡,其中包含与格式相关的属性。其中包括配置最大行长度、字符集和日志中原始行保留的新属性。对于 Grok 图案格式,处理器现在支持输入多个格罗克图案。对于 Log4j 格式,处理器现在具有用于配置对解析错误执行的操作的属性,以及可包含在日志记录中的堆栈跟踪的大小。
目的地
此版本包括以下新目标:- SFTP/FTP/FTPS 客户端 - 使用 SFTP、FTP 或 FTPS 将整个文件写入 URL。
- 气动 - 目标现在可以使用 sdc.operation.type 记录标头属性中定义的 CRUD 操作来更新或删除数据。您可以为没有标头属性或值的记录定义默认操作。您还可以配置如何处理具有不受支持的操作的记录。
- Azure 数据湖存储(旧版) - 目标(以前称为 Azure 数据湖存储)已重命名。数据收集器现在包括 Azure 数据湖存储第 1 代目标,该目标还会将数据写入微软 Azure 数据湖存储第 1 代。Azure 数据湖存储第 1 代目标是技术预览阶段。
- 沙发库 - 目标包括以下增强功能:
-
支持在记录标头属性中定义的 CRUD 操作以写入数据。您可以为没有标头属性或值的记录定义默认操作。您还可以配置如何处理具有不受支持的操作的记录。
sdc.operation.type
-
支持写入子文档。
-
支持使用 Avro、二进制、分隔、JSON、原型布夫、SDC 记录和文本数据格式写入数据。
-
- Hadoop FS 和 MapR FS - 这些目标包括以下选项卡和属性名称更改:
- “Hadoop FS”选项卡现在是“连接”选项卡。
- “Hadoop FS URI”属性现在是“文件系统 URI”属性。
- HDFS 用户属性现在是模拟用户属性。
- “Hadoop FS 配置目录”属性现在是“配置文件目录”属性。
- “Hadoop FS 配置”属性现在是“其他配置”属性。
与这些属性关联的功能未发生更改。
- HBase - 目标现在可以在写入表之前跳过验证 HBase 中存在表的过程。默认情况下,目标验证表是否存在,这要求写入 HBase 的 HBase 用户具有 HBase 管理员权限。
您可能希望将目标配置为在不想向 HBase 用户授予 HBase 管理员权限时跳过验证。如果将目标配置为跳过验证,并且表不存在,则管道会遇到错误。以前,目标始终验证表是否存在。
- Solr - 默认情况下,以下目标属性现在处于启用状态:
-
自动映射字段
-
忽略可选字段
以前,默认情况下,这两个属性都处于禁用状态。
-
- Syslog - 已从“消息”选项卡中删除以下目标属性:
-
使用非文本消息格式
-
消息文本
现在,您将目标配置为使用“数据格式”选项卡上的文本数据格式。如果升级使用配置为使用文本数据格式的 Syslog 目标的管道,则必须完成更新 Syslog 管道中所述的升级后任务。
-
遗嘱 执行 人
此版本包括对执行程序的以下增强功能:- 管道完成器 - 执行程序包括一个新的“重置偏移量”选项,可确保管道在每次管道运行时处理所有可用数据。
技术预览功能
数据收集器包括某些具有技术预览指定的新功能和阶段。技术预览版功能可用于开发和测试,但不适用于生产。技术预览阶段在舞台图标上包含以下图像:。
当技术预览功能被批准在生产中使用时,发行说明和文档将反映更改,并且“技术预览”图标将从 UI 中删除。
此版本中提供了以下技术预览阶段:
- Azure 数据湖存储 Gen1 源 - 从微软 Azure 数据湖存储 Gen1 读取数据。
- Azure 数据湖存储 Gen2 源 - 从微软 Azure 数据湖存储 Gen2 读取数据。
- Azure 数据湖存储 Gen1 目标 - 将数据写入 Microsoft Azure 数据湖存储 Gen1。
- Azure 数据湖存储 Gen2 目标 - 将数据写入 Microsoft Azure 数据湖存储 Gen2。
- ADLS 第 1 代文件元数据执行程序 - 在收到事件时,更改文件元数据、创建空文件或删除 Microsoft Azure 数据湖存储 Gen1 中的文件或目录。
- ADLS Gen2 文件元数据执行程序 - 在收到事件时更改文件元数据、创建空文件或删除 Microsoft Azure 数据湖存储 Gen2 中的文件或目录。
管道
此版本包括以下管道增强功能:- “管道开始”菜单 - 数据收集器工具栏现在包括一个管道“开始”菜单,其中包含以下选项:
-
启动管道
-
重置源并启动
-
从参数开始
以前,“重置源和启动”选项不可用。“从参数开始”选项位于“更多”图标下。
-
- 生成的事件 - 对于生成事件的阶段,属性面板现在包括“生成的事件”选项卡,其中列出并描述了源可以生成的事件。
数据治理工具
此版本包括以下数据治理工具增强功能:
- 阿帕奇阿特拉斯版本 - 数据收集器现在可以将元数据发布到阿帕奇阿特拉斯版本1.1.0。
表达式语言
此版本包括以下新的时间函数:time:extractNanosecondsFromString(<string>)
- 将具有纳秒精度的字符串日期转换为以毫秒为单位的纪元或 UNIX 时间,然后使用以下格式添加纳秒:<milliseconds_from_epoch><n><nanoseconds>
例如,字符串将转换为 。
’29/05/2019 10:12:09.123456789’
1559124729123<n>456789
数据收集器配置
此版本包括以下数据收集器配置增强功能:- 天线医生 - 数据收集器现在包括天线医生,这是一个基于规则的引擎,建议潜在的修复和解决常见问题。需要时,您可以编辑数据收集器配置文件 sdc.属性,以禁用天线医生或禁用天线医生定期从 Internet 检索知识库更新。
- 旧版舞台库 - 程序包管理器现在可以安装旧版舞台库。
- 胸腺秘密服务器支持 - 数据收集器现在与胸腺秘密服务器凭据存储系统集成。
舞台库
此版本包括以下阶段库增强功能:- 新舞台库 - 此版本包括以下新舞台库:
舞台库名称 描述: __________ streamsets-datacollector-cdh_5_16-lib 对于 Cloudera CDH 版本 5.16 分发的阿帕奇哈多普。 streamsets-datacollector-kinetica_7_0-lib 对于动能 7.0. streamsets-datacollector-thycotic-credentialstore-lib 对于胸腺秘密服务器凭据存储系统。 - 旧版舞台库 - 以下舞台库现在是旧版舞台库:
舞台库名称 描述: __________ streamsets-datacollector-apache-kafka_0_11-lib 对于卡夫卡版本 0.11.x。 streamsets-datacollector-cdh_5_12-lib 对于 Cloudera CDH 版本 5.12 分发的阿帕奇哈多普。 streamsets-datacollector-cdh_5_13-lib 对于 Cloudera CDH 版本 5.13 分发的阿帕奇哈多普。 streamsets-datacollector-cdh_kafka_2_1-lib 对于阿帕奇卡夫卡2.1.x(0.9.0)的Cloudera发行版。 streamsets-datacollector-cdh_kafka_3_0-lib 对于阿帕奇卡夫卡3.0.0(0.11.0)的Cloudera发行版。 streamsets-datacollector-cdh-spark_2_1-lib 适用于由 Spark 2.1 提供支持的 CDS 的 Cloudera CDH 群集卡夫卡。 streamsets-datacollector-mapr_5_2-lib 对于映射器版本 5.2。 超过两年的旧版舞台库不包括在数据收集器中。尽管不建议这样做,但您仍然可以安装较旧的舞台库。
如果有使用这些旧阶段库的管道,则需要更新管道以使用更新的阶段库或安装旧阶段库。有关详细信息,请参阅使用旧版阶段库更新管道。
数据收集器边缘新功能和增强功能
边缘管线中的起源
当您在数据收集器边缘管道中为 HTTP 服务器源启用 SSL/TLS 时,该源现在支持使用 PKCS #12 格式的密钥库文件。
边缘管道中的处理器
数据收集器边缘管道现在支持 HTTP 客户端处理器。
边缘管道中的目的地
数据收集器边缘管道现在支持 Azure 事件中心创建器和 Azure IOT 中心创建器目标。
3.8.0 中的新增功能
数据收集器版本 3.8.0 包括以下新功能和增强功能:
内存监控
在 3.8.0 版中,数据收集器内存监视已删除。默认情况下,内存监视处于禁用状态,并且仅在开发中用于解决特定问题。流集建议使用 JMX 或操作系统监视内存消耗。
如果在升级到 3.8.0 后为数据收集器启用了内存监视,则日志中将显示一条消息,指示不再支持内存监视。
作为此功能删除的一部分,进行了以下更改:- 数据收集器配置属性已从数据收集器配置文件中删除。
monitor.memory
- 还删除了两个相关的管道配置属性:“最大管道内存”和“超出内存时”。
- 两个相关的计数器统计信息不再可用:堆内存使用情况和阶段堆内存使用情况。
企业舞台库
企业阶段库仅出于开发目的而免费。有关购买舞台库以用于生产的信息,请联系 StreamSets。
在此版本中,您可以使用以下新的企业阶段库:舞台库名称 | 描述: __________ |
---|---|
streamsets-datacollector-oracle-lib | 用于从静态 Oracle 表进行批量加载。 包括甲骨文批量加载源。 |
起源
此版本包括对以下来源的增强功能:- 开发原始数据源 - 开发源现在可以生成事件。
- Hadoop FS 独立 - 源现在可以从使用 glob 模式指定的多个目录中读取文件。
- Oracle CDC 客户端 - JDBC 读取大小属性已替换为以下新属性:
- 当前窗口的 JDBC 读取大小
- 过去窗口的 JDBC 提取大小
为了启用预期的行为,升级后的管道对新属性使用以前的 JDBC 提取大小配置。
- REST 服务 - 除了 JSON 格式之外,源现在还可以生成 XML 格式的响应。
- 销售队伍 - 源现在支持 SOQL 查询中的聚合函数。
- SFTP/FTP 客户端 - 源包括以下增强功能:
- SQL Server CDC 客户端 - “最大事务长度”属性的默认值已更改为 “更改为 选择不使用该属性。升级后的管道不受影响。
${1*HOUR}
-1
- WebSocket 客户端 - 除了 JSON 格式之外,源现在还可以生成 XML 格式的响应。
- 网站托管服务器 - 除了 JSON 格式之外,源现在还可以生成 XML 格式的响应。
处理器
此版本包括以下新处理器:- 字段映射器 - 将表达式映射到一组字段以更改字段路径、字段名称或字段值。
- 字段拼合器 - 拼合特定字段时,除了输入每个字段的路径外,处理器现在还支持使用预览数据选择字段。
- Salesforce 查找 - 处理器现在支持 SOQL 查询中的聚合函数。
- 窗口聚合器 - 聚合器处理器已重命名为窗口聚合器处理器。
目的地
此版本包括对以下目标的增强功能:- Google 发布/订阅发布商 - 目标现在包含用于配置批处理的属性。
- Solr - 目标现在可以直接将记录字段映射到 Solr 架构字段。
管道
此版本包括以下管道增强功能:- 使用或不使用纯文本凭据的管道导出 - 数据收集器现在提供以下管道导出选项:
- 导出 - 从导出的管道中去除所有纯文本凭据。
- 使用纯文本凭据导出 - 包括导出管道中的所有纯文本凭据。
以前,数据收集器始终在导出的管道中包含纯文本凭据。
- 新的微服务原始响应 - 微服务管道中的源现在可以发送原始响应,将响应传递到源系统,而无需信封。
- 管线标签增强功能 - 现在可以在创建管线时在“新建管线”对话框中配置管线标签。与在早期版本中一样,您还可以在管道属性的“常规”选项卡上配置标签。
数据格式
此版本包括以下数据格式增强功能:- 分隔 - 数据收集器现在支持在分隔数据中使用多字符字段分隔符。
数据收集器配置
此版本包括以下数据收集器配置增强功能:- 保护配置文件中的敏感数据 - 现在可以保护数据收集器配置文件中的敏感数据,方法是将数据存储在外部位置,然后使用该函数调用检索数据的脚本或可执行文件。例如,您可以开发一个脚本来解密包含密码的加密文件。或者,您可以开发一个脚本来调用外部 REST API,以从远程保管库系统检索密码。
exec
开发脚本后,使用数据收集器配置文件中的函数调用脚本或可执行文件,如下所示:exec
<span style="color:#333333"><span style="color:#000000"><span style="color:#000000"><span style="color:#333333"><span style="background-color:#eeeeee"><code>${exec("<script name>")}</code></span></span></span></span></span>
- AWS 密钥管理器支持 - 数据收集器现在与 AWS 密钥管理器凭证存储系统集成。
舞台库
此版本包括以下阶段库增强功能:- 新舞台库 - 此版本包括以下新舞台库:
舞台库名称 描述: __________ streamsets-datacollector-aws-secrets-manager-credentialstore-lib 适用于 AWS 密钥管理器凭证存储系统。 streamsets-datacollector-hdp_3_1-lib 对于霍顿工厂3.1版。 streamsets-datacollector-mapr_6_1-lib 对于映射器版本 6.1.0。 streamsets-datacollector-mapr_6_1-mep6-lib 对于映射器 6.1.0,映射器生态系统包 (MEP) 版本 6。 - 旧版舞台库 - 以下舞台库现在是旧版舞台库:
舞台库名称 描述: __________ streamsets-datacollector-cdh_5_10-lib 对于 Cloudera CDH 版本 5.10 分发的阿帕奇哈多普。 streamsets-datacollector-cdh_5_11-lib 对于 Cloudera CDH 版本 5.11 分发的阿帕奇哈多普。 超过两年的旧版舞台库不包括在数据收集器中。尽管不建议这样做,但您仍然可以下载并安装较旧的舞台库作为自定义舞台库。
如果管道使用这些旧阶段库,则需要更新管道以使用更新的阶段库或手动安装旧阶段库。有关详细信息,请参阅使用旧版阶段库更新管道。
数据收集器边缘新功能和增强功能
此数据收集器边缘(SDC Edge)版本包括以下方面的新功能和增强功能:
边缘管线中的起源
此版本包括以下源增强功能:- 在边缘管线中,原点现在可以处理压缩文件。
- 目录原点现在支持边缘管道中的文件后处理。您现在可以配置错误目录,并且可以在处理后拥有源存档或删除文件。
边缘管道中的目的地
此版本包括以下目标增强功能:- 边缘管道现在支持 Amazon S3 目标。
- 在边缘管道中,现在可以将卡夫卡创建者目标配置为通过 SSL/TLS 安全地连接到卡夫卡。
边缘管道中的数据格式
此版本包括以下数据格式增强功能:- 边缘管道中包含的阶段现在仅列出边缘管道中支持的数据格式。
- 以下阶段现在可以处理包含在边缘管道中的二进制数据格式:
- 现在,当整个文件数据格式包含在边缘管道中时,以下阶段可以处理它们:
3.7.0 中的新增功能
Microsoft Azure Support
在此版本中,现在可以使用 Hadoop FS 独立源从 Azure 数据湖存储读取数据。还可以使用 Hadoop FS 目标写入 Azure 数据湖存储。如果需要使用 Azure 活动目录刷新令牌身份验证连接到 Azure 数据湖存储,或者想要在群集流式处理管道中写入 Azure 数据湖存储,请使用 Hadoop FS 目标。对于所有其他情况,请使用现有的 Azure 数据湖存储目标。
企业舞台库
企业阶段库仅出于开发目的而免费。有关购买舞台库以用于生产的信息,请联系 StreamSets。
此版本包括以下新的企业阶段库:舞台库名称 | 描述: __________ |
---|---|
streamsets-datacollector-memsql-lib | 对于记忆。 包括内存管理模式快速加载程序目标。 |
Streamsets-datacollector-Snowflake-lib | 对于雪花。 包括雪花目的地。 |
streamsets-datacollector-teradata-lib | 对于泰瑞达。 包括天睿消费者来源。 |
安装
- 在微软Azure上安装数据收集器 - 在微软Azure上安装数据收集器的过程已得到增强。数据收集器现在在部署资源后自动作为服务启动。您不再需要使用 SSH 登录到虚拟机即可运行数据收集器安装脚本,然后启动数据收集器。
起源
此版本包括以下新源:- 天睿消费者来源 - 从多个天睿数据库表中读取数据。若要使用此源,必须安装 Teradata 阶段库。这是一个企业阶段库。
- Amazon S3 - 源现在可以创建多个线程,以便在多线程管道中启用并行处理。
- 开发数据生成器 - 开发源现在生成电子邮件,种族,性别和社会安全号码的虚假数据。
- 弹性搜索 - 源现在支持在使用亚马逊弹性搜索服务时使用 AWS 凭证进行身份验证。
- Hadoop FS 独立 - 源现在支持从微软 Azure 数据湖存储读取数据。
- 卡夫卡消费者 - 原产地包括以下增强功能:
- 新的“自动偏移重置”属性确定当使用者组和主题没有存储以前的偏移量时在主题中读取的第一条消息。源可以从最早的消息、最新的消息或特定的时间戳读取。默认设置使源读取主题中的所有现有消息。
在以前的版本中,默认情况下,源仅读取新消息。有关升级使用 Kafka 使用者源的管道的信息,请参阅更新使用 Kafka 使用者或 Kafka 多主题源的管道。
- 新的“包含时间戳”属性使您能够在记录标头中包含 Kafka 时间戳。
- 新的“自动偏移重置”属性确定当使用者组和主题没有存储以前的偏移量时在主题中读取的第一条消息。源可以从最早的消息、最新的消息或特定的时间戳读取。默认设置使源读取主题中的所有现有消息。
- Kafka 多主题使用者 - 源包括一个新的“自动偏移重置”属性,该属性确定当使用者组和主题没有存储以前的偏移量时,在主题中读取的第一条消息。源可以从最早的消息、最新的消息或特定的时间戳读取。默认设置使源读取主题中的所有现有消息。
在以前的版本中,默认情况下,源仅读取新消息。有关升级使用 Kafka 多主题使用者源的管道的信息,请参阅更新使用 Kafka 使用者或 Kafka 多主题源的管道。
- PostgreSQL CDC 客户端 - 源现在具有“复制槽”属性的新默认值:。此属性必须仅包含小写字母和数字。
sdc
- REST 服务 - 此微服务源现在支持 SSL 相互身份验证。
- Salesforce - 源现在包括一种新的订阅类型:更改数据捕获。
- SQL Server CDC 客户端 - 源现在包括“使用直接表查询”属性以启用直接表查询,以及“最大事务长度”属性(用于指定在提交数据之前检查记录更改的时间量)。
- TCP 服务器 - 源现在包含一个“读取超时”属性,该属性设置源在数据收集器关闭连接之前等待接收数据的时间量。默认值为 5 分钟。在以前的版本中,连接无限期地保持打开状态。
处理器
此版本包括对以下处理器的增强:- Databricks ML 评估器 - 在此版本中,此处理器不再被视为技术预览功能,并已批准用于生产。此外,您现在可以指定相对于数据收集器资源目录的模型路径。
- 字段哈希 - 处理器现在支持使用 SHA512 加密哈希函数进行哈希处理。
- 字段删除器 - 除了删除字段和删除具有 null 值的字段外,处理器现在还支持在以下条件下删除字段:
- 当值为空字符串时。
- 当值为空或空字符串时。
- 当值为指定值时。
- 字段重命名器 - 处理器现在支持目标字段路径中的 StreamSets 表达式语言。使用此功能,您可以使用字符串函数将字段名称全部更改为大写或小写。
- JDBC 查找 - 处理器现在支持在单个记录中将多个匹配值作为列表返回。
- 库杜查找 - 处理器现在支持 Apache Kudu 1.7 及更高版本中提供的十进制数据类型。
- MLeap Evaluator - 在此版本中,此处理器不再被视为技术预览功能,并被批准用于生产。此外,您现在可以指定相对于数据收集器资源目录的模型路径。
- MongoDB 查找 - 处理器包括对属性和选项卡名称的以下更新:
-
一些属性已从MongoDB选项卡移动到新的“查找”选项卡。
-
“SDC 字段到文档字段映射”属性现在称为“文档到 SDC 字段映射”。
-
“文档中的字段名称”属性现在称为“文档字段”。
-
“要保存查找结果的新字段”属性现在称为“结果字段”。
-
- PMML 评估器 - 处理器已获准用于生产。此版本删除了“技术预览”称号。此外,您现在可以指定相对于数据收集器资源目录的模型路径。
- Salesforce 查找 - 处理器现在支持在 SOQL 查询中使用时间函数。
- TensorFlow 评估器 - 在此版本中,此处理器不再被视为技术预览功能,并被批准用于生产。此外,您现在可以指定相对于数据收集器资源目录的模型路径。
目的地
此版本包括以下新目标:- 内存管理快速加载程序目标 - 使用 LOAD 语句将数据插入内存管理或内存管理数据库表中。若要使用此目标,必须安装 MemSQL 阶段库。这是一个企业阶段库。
- 雪花目标 - 将新数据或 CDC 数据写入雪花数据库架构中的表。若要使用此目标,必须安装雪花舞台库。这是一个企业阶段库。
- Azure 数据湖存储 - 由于微软品牌重塑,Azure 数据湖存储目标现在称为 Azure 数据湖存储目标。
- 弹性搜索 - 目标现在包括:
-
Hadoop FS - 目标现在支持将数据写入微软 Azure 数据湖存储。
-
Kudu - 如果使用 Apache Kudu 1.7.0 阶段库,则目标现在支持十进制数据类型。
数据治理工具
- 管道元数据 - 数据收集器现在将其他管道元数据发布到 Cloudera 导航器和 Apache Atlas,包括管道描述、标签、参数、版本和启动管道的用户。
管道参数
- 复选框和下拉菜单的参数 - 现在可以为显示为复选框和下拉菜单的属性调用管道参数。参数的计算结果必须为属性的有效选项。
群集管道
- 网关节点需要可写的临时目录 - 运行集群管道时,数据收集器现在要求网关节点上的 Java 临时目录是可写的。Java 临时目录由 Java 系统属性 指定。在 UNIX 上,此属性的默认值通常是可写的。
java.io.tmpdir
/tmp
有关升级以前在没有可写临时目录的网关节点上运行的群集管道的信息,请参阅更新群集管道。
表达式语言
- 字符串函数 - 此版本包括以下新函数:
str:lastIndexOf(<string>,<subset>)
- 返回指定字符子集最后一次出现的字符串内的索引。
数据收集器配置
- 数据收集器安全性管理器 - 为了增强安全性,数据收集器配置文件现在提供了一个属性来启用数据收集器安全性管理器,而不是 Java 安全性管理器。数据收集器安全管理器不允许阶段访问以下目录中的文件:
-
在SDC_CONF环境变量中定义的配置目录。
-
在SDC_DATA环境变量中定义的数据目录。
此外,数据收集器安全管理器不允许阶段写入SDC_RESOURCES环境变量中定义的资源目录中的文件。阶段只能读取资源目录中的文件。
缺省情况下,数据收集器使用 Java 安全管理器,它允许阶段访问所有数据收集器目录中的文件。
-
- HTTP/2 支持 - 数据收集器现在在数据收集器配置文件中提供一个属性,以启用对 UI 和 API 的 HTTP/2 协议的支持。由于 HTTP/2 需要 TLS,因此要启用 HTTP/2,请同时配置 属性 和 属性。
http2.enable
https.port
- 程序包管理器 - 程序包管理器包括以下增强功能:
-
数据收集器现在提供一个包管理器.存储库.links 属性,以允许指定包管理器存储库的备用位置。
-
包管理器现在显示与每个阶段库关联的阶段列表。
-
- 数据收集器日志记录 - 数据收集器现在记录生成每个日志行的阶段实例。
舞台库
- 新舞台库 - 此版本包括以下新舞台库:
舞台库名称 描述: __________ streamsets-datacollector-cdh_kafka_3_1-lib 阿帕奇卡夫卡的Cloudera分布 3.1.0 (1.0.1). streamsets-datacollector-kinetica_6_2-lib 对于动力学 6.2. 包括动态数据库目的地。
- 更新的阶段库 - 此版本包括对以下阶段库的更新:
舞台库名称 描述: __________ streamsets-datacollector-apache-pulsar_2-lib 阿帕奇脉冲星版本2.x。 streamsets-datacollector-cdh_6_0-lib Cloudera CDH 版本 6.0.x 分发版的 Apache Hadoop.现在包括以下阶段: - H 基本查找处理器
- 火花评估器处理器
- 总部基地目的地
阶段库不再包括以下阶段:- 索尔德目的地
数据收集器边缘新功能和增强功能
技术预览功能
以下技术预览阶段可用于此版本中的边缘管道:- gRPC 客户端源 - 通过调用 gRPC 服务器方法处理来自 gRPC 服务器的数据的新源。源可以调用一元 RPC 和服务器流式处理 RPC 方法。仅在为 Edge 执行模式配置的管道中使用此源。
边缘管线中的起源
此版本包括对边缘管道中支持的以下源的增强功能:- 文件尾部 - 当源包含在边缘管道中时,它现在可以读取多组文件。
- 窗口事件日志 - 源现在可以使用事件日志记录 API 或窗口事件日志 API 从微软视窗事件日志中读取数据。微软建议使用较新的视窗事件日志 API。
以前,源仅使用事件日志记录 API。升级后的管道继续使用事件日志记录 API。
边缘管道中的处理器
边缘管道现在支持开发随机错误处理器。
边缘管道中的目的地
边缘管道现在支持以下目标:- 到错误
- 前往活动
- 动力火水
- 运动生产者
SDC 边缘即系统服务
如果将 SDC Edge 注册为作为系统服务运行,则现在可以以管理员身份运行命令以显示服务的状态。
SDC 边缘配置
3.6.0 中的新增功能
数据收集器 3.6.0 版包括以下新功能和增强功能:
数据收集器边缘(SDC 边缘))
- 向控制中心注册 SDC 边缘 - 现在可以使用命令行将 SDC 边缘注册到控制中心。
- 分隔数据格式 - 边缘管道中的阶段现在可以处理分隔数据格式。
- 函数 - 该函数现在可以返回数据收集器或数据收集器边缘计算机的主机名,并且可以在边缘管道中使用。
sdc:hostname()
3.5.0 中的新增功能
数据收集器 3.5.0 版包括以下新功能和增强功能:
起源
- 新脉冲星消费者起源 - 一个新的起源,它读取来自Apache脉冲星团中一个或多个主题的消息。
- JDBC 多表使用者和 JDBC 查询使用者源增强功能 - 这些源现在包括一个选项,用于将时间戳数据转换为字符串数据类型,而不是 Datetime 数据类型,以确保保持精度。
- Salesforce 源增强 - 使用批量 API 时,源现在可以执行包含一个或多个子查询的 SOQL 查询。
- WebSocket 客户端和 WebSocket 服务器源增强功能 - 当包含在微服务管道中时,当与同一管道中的微服务目标一起使用时,源现在可以将响应发送回原始终结点。
处理器
- 新的加密和解密字段处理器 - 加密或解密单个字段值的新处理器。
- 新的 MongoDB 查找处理器 - 在 MongoDB 中执行查找并将返回的文档中的所有值传递到新的列表映射字段的新处理器。使用 MongoDB 查找功能使用其他数据丰富记录。
- 新的 HTTP 路由器处理器 - 一种新的处理器,它根据记录标头属性中的 HTTP 方法和 URL 路径将记录传递到流。在管道中使用 HTTP 路由器处理器,该管道具有创建 HTTP 方法和路径记录标头属性的源,包括 HTTP 服务器源和 REST 服务源。
- 字段类型转换器处理器增强功能 - 处理器现在可以将布尔数据类型转换为整数、长整型或短整型数据类型。
- Salesforce 查找处理器增强功能 - 处理器包括以下增强功能:
- 处理器现在可以返回多个值。可以将查找配置为返回第一个值或将所有匹配项作为单独的记录返回。
- 您现在可以配置处理器如何处理在未定义默认值的字段中不返回任何值的查找。升级后的管道继续发送没有返回值且没有默认值的记录出错。
目的地
- 新的脉冲星生产者目的地 - 一个新的目的地,将数据写入Apache脉冲星集群中的主题。
- 新系统日志目标 - 将数据写入系统日志服务器的新目标。
- HTTP 客户端、Kafka 创建器和 Kinesis 创建器目标增强功能 - 当包含在微服务管道中时,目标现在可以将响应发送到管道中的微服务源。
遗嘱 执行 人
- 新的数据砖执行器 - 一个新的执行器,每次收到事件时都会启动数据砖作业。
随着这个新的执行程序的加入,数据收集器已经删除了将 Spark 执行器与数据砖一起使用的功能。如果将包含 Spark 执行器的管道与数据砖升级,则必须在升级后更新管道以使用数据砖执行程序。
蜂巢阶段
- JDBC 凭据 - 以下配置单元阶段现在允许您独立于 Hive 的 JDBC URL 输入凭据:
- 配置单元元数据处理器
- 蜂巢元存储目标
- 配置单元查询执行程序
销售团队阶段
- API 版本 - 数据收集器现在随以下 Salesforce 阶段使用的 43.0 版 Salesforce Web 服务连接器库一起提供:
技术预览功能
数据收集器现在包括某些具有技术预览称号的新功能和阶段。技术预览版功能可用于开发和测试,但不适用于生产。
技术预览阶段在预览阶段的左上角显示“技术预览”图标,如下所示:
当技术预览功能被批准在生产中使用时,发行说明和文档将反映更改,并且“技术预览”图标将从 UI 中删除。
- 数据砖 ML 评估器处理器 - 一种新处理器,它使用随数据砖 ML 模型导出导出的机器学习模型来生成数据的评估、评分或分类。
- MLeap 评估程序处理器 - 一种新处理器,它使用存储在 MLeap 捆绑包中的机器学习模型来生成数据的评估、评分或分类。
- PMML 评估器处理器 - 一种新处理器,它使用以预测模型标记语言 (PMML) 格式存储的机器学习模型来生成数据的预测或分类。
- 张量流评估器处理器 - 一种使用张量流机器学习模型生成数据预测或分类的新处理器。
数据格式
- 分隔数据格式增强功能 - 在读取包含具有空值的标题的分隔数据时,数据收集器现在将空值替换为字符串“empty-”加上从零开始的列号。例如,如果第 3 列标题为空,则数据收集器中的字段名称将变为“empty-2”。以前,数据收集器保留了空字段名称。
- Excel 数据格式增强功能 - 读取 Excel 数据时,数据收集器现在处理电子表格中数值列的基础原始值,而不是显示的值。例如,如果单元格包含 3.14159,但显示格式设置为 2 位小数,以便电子表格显示 3.14,则数据收集器仍会处理完整值 3.14159。以前,数据收集器在处理包含显示值的 Excel 电子表格时遇到错误。
数据收集器边缘(SDC 边缘))
- 下载适用于视窗的安装程序 - 您现在可以下载微软安装程序,以便在视窗操作系统上安装 SDC Edge。
- 将 SDC 边缘作为服务运行 - 现在可以将 SDC 边缘注册为在达尔文、Linux 或 Windows 操作系统上作为系统服务运行。
- 系统指标源增强 - 源现在可以从边缘设备上运行的特定进程读取度量。
- 窗口事件日志源增强 - 源现在可以从自定义窗口日志中读取。
- 支持开发数据生成器源 - 边缘管道现在支持开发数据生成器源。
- 支持张量流评估器处理器 - 边缘管道支持新的张量流评估器处理器。
- 函数 - 边缘管道现在支持所有作业函数和管道:startTime() 函数。
- 禁用管理生产边缘管道的功能 - 默认情况下,可以使用数据收集器 UI 或 REST API 来管理部署到 SDC 边缘的边缘管道,包括预览、验证、启动、停止、重置源和监视管道。现在,可以使用数据收集器 UI 或 REST API 禁用在生产环境中管理边缘管道的功能。禁用后,可以使用控制中心或在启动 SDC Edge 时启动管道来管理边缘管道。
- 跳过验证受信任的证书 - 在测试或开发环境中,可以启动 SDC Edge,以便它跳过验证受信任的证书。例如,当 SDC Edge 注册到启用了 HTTPS 的控制中心本地安装时,您可能希望跳过验证受信任的证书,并且您希望暂时避免为 SDC Edge 配置信任库文件。流集强烈建议您配置 SDC 边缘以验证生产环境中的受信任证书。
使用控制中心
- 自动注册和注销数据收集器- 您现在可以使用 Ansible、Chef 或 Puppet 等自动化工具,使用以下命令自动注册和注销数据收集器:
<span style="color:#333333"><span style="color:#000000"><span style="color:#000000"><span style="color:#333333"><span style="background-color:#eeeeee"><code>streamsets sch register streamsets sch unregister</code></span></span></span></span></span>
微服务管道
- 微服务管道的源 - 当以下源与将记录发送到同一微服务管道中的源的目标一起使用时,现在可以将响应发送回原始 REST API 客户端:
- 网页短跑客户端来源
- 网页浏览器服务器源
- 微服务管道的目标 - 以下目标现在可以将具有指定响应的微服务管道中的源发送记录:
- 客户端目标
- 卡夫卡生产者目的地
- 基恩斯生产者目的地
- 示例微服务管道 - 创建微服务管道时,示例微服务管道现在包括新的 HTTP 路由器处理器,而不是流选择器处理器,用于根据请求方法将数据路由到不同的流。
数据治理工具
- 支持的阶段 - 数据收集器现在可以将元数据发布到以下阶段的数据治理工具:
- 亚马逊 S3 源
- 卡夫卡多主题消费者起源
- 断续器/FTP 客户端源
- 卡夫卡生产者目的地
- 云端导航器版本 - 数据收集器现在可以将元数据发布到在云端管理器版本 5.10 到 5.15 上运行的云端导航器。
以前,仅在云端管理器版本 5.10 或 5.11 上支持将元数据发布到云端导航器。
- 与云导航器的安全连接 - 如果云传送导航器配置为 TLS/SSL,则数据收集器需要本地信任库文件来验证云传送器元数据服务器的身份。现在,在配置与云传送导航器的连接时,您可以在 $SDC_CONF/sdc.properties 文件中配置信任库文件位置和密码。
凭据存储
- 新的 Azure 密钥保管库凭据存储 - 现在可以在阶段属性中使用数据收集器凭据函数来检索这些值。
- Java 密钥库凭证存储区的命令 - 现在,您可以使用该命令在 Java 密钥库凭证存储中添加、列出和删除凭证。以前您使用了该命令,该命令现已弃用。
stagelib-cli jks-credentialstore
jks-cs
表达式语言
- 字符串函数 - 此版本包括以下新函数:
- str:split() - 将字符串拆分为字符串值列表。
- 管道函数 - 此版本包括以下新功能:
- 管道:启动时间() - 以日期时间值的形式返回管道的开始时间。
- 工作职能 - 此版本包括以下新功能:
- job:id() - 如果管道是从控制中心作业运行的,则返回作业的 ID。否则,返回“未定义”。
- job:name() - 如果管道是从控制中心作业运行的,则返回作业的名称。否则,返回“未定义”。
- job:startTime() - 如果管道是从控制中心作业运行的,则返回作业的开始时间。否则,返回管道的开始时间。
- job:user() - 如果管道是从控制中心作业运行的,则返回启动作业的用户。否则,返回“未定义”。
舞台库
- 新舞台库 - 此版本包括以下新舞台库:
舞台库名称 描述: __________ streamsets-datacollector-apache-kafka_1_1-lib 阿帕奇卡夫卡版本 1.1.x streamsets-datacollector-apache-kafka_2_0-lib 阿帕奇卡夫卡版本 2.0.x streamsets-datacollector-apache-pulsar_2-lib 阿帕奇脉冲星版本2.1.0-孵化 streamsets-datacollector-azure-keyvault-credentialstore-lib Microsoft Azure Key Vault credential store system streamsets-datacollector-cdh_6_0-lib Cloudera CDH 版本 6.0 分发的阿帕奇哈多普 注意:不包括以下阶段:- H 基本查找处理器
- 火花评估器处理器
- 总部基地目的地
streamsets-datacollector-crypto-lib 对于加密阶段,包括加密和解密字段处理器 streamsets-datacollector-mapr_6_0-mep5-lib 适用于地图 6.0.1 的地图生态系统包 (MEP) 版本 5 streamsets-datacollector-张量流-lib 张量流 - 旧版舞台库 - 以下舞台库现在是旧版舞台库:
舞台库名称 描述: __________ streamsets-datacollector-apache-kafka_0_9-lib 阿帕奇卡夫卡版本 0.9.x streamsets-datacollector-apache-kafka_0_10-lib 阿帕奇卡夫卡版本 0.10.x streamsets-datacollector-cdh_5_8-lib Cloudera CDH 版本 5.8 分发的阿帕奇哈多普 streamsets-datacollector-cdh_5_9-lib Cloudera CDH 版本 5.9 分发版的阿帕奇哈多普 streamsets-datacollector-cdh_kafka_2_0-lib 阿帕奇卡夫卡的Cloudera分布 2.0.x (0.9.0) streamsets-datacollector-hdp_2_4-lib 霍顿沃克斯版本2.4阿帕奇哈多普的分布 streamsets-datacollector-hdp_2_4-hive1-lib 霍顿沃克斯版本2.4.x分发阿帕奇蜂巢版本1.x streamsets-datacollector-hdp_2_5-lib 霍顿沃克斯版本2.5.x分发阿帕奇哈多普 streamsets-datacollector-hdp_2_5-flume-lib 霍顿沃克斯版本2.5.x阿帕奇水槽的分布 streamsets-datacollector-mapr_5_1-lib 映射器版本 5.1 超过两年的旧版舞台库不包括在数据收集器中。尽管不建议这样做,但您仍然可以下载并安装较旧的舞台库作为自定义舞台库。
如果管道使用这些旧阶段库,则需要更新管道以使用更新的阶段库或手动安装旧阶段库。有关详细信息,请参阅使用旧版阶段库更新管道。
杂项
- 从外部 HTTP URL 导入管道 - 现在可以使用数据收集器从外部 HTTP URL 导入管道。例如,您可以从流集 GitHub 存储库导入管道。
- 使用情况统计信息的收集 - 当您首次以管理员/管理员用户身份登录到数据收集器时,您现在可以选择通过发送匿名使用情况数据来改进数据收集器。以前,数据收集器配置文件中的 ui.enable.usage.data.收集属性确定是否收集了使用情况数据。此属性已被删除。
3.4.0 中的新增功能
数据收集器 3.4.0 版包括以下新功能和增强功能:
起源
- 新的后格雷SQL CDC 客户端源 - 使用后格雷SQL CDC 客户端源处理后绿色SQL数据库的更改数据捕获信息。
- 新测试源 - 现在可以配置虚拟测试源,以提供用于数据预览的测试数据,以帮助管道开发。在控制中心,您还可以在开发管道片段时使用测试源。
- 亚马逊 S3、目录、SFTP/FTP 客户端、谷歌云存储增强功能 - 列出的源现在可以处理微软 Excel 文件。
- 开发数据生成器源增强功能 - 开发源现在可以生成其他类型的数据以用于测试目的,例如示例地址数据、名称或价格。
- Hadoop FS 源增强功能 - 源包括以下增强功能:
- 在集群 EMR 批处理模式下处理 Amazon S3 数据 - 使用在 Amazon EMR 集群上运行的集群 EMR 批处理管道中的源来处理来自 Amazon S3 的数据。
- 以集群批处理模式处理 Amazon S3 数据 - 使用在 Hadoop (CDH) 或霍顿沃数据平台 (HDP) 集群的 Cloudera 分发版上运行的集群批处理管道中的源来处理来自 Amazon S3 的数据。
- HTTP 客户端源增强功能 - 源包括以下更改和增强功能:
- 默认情况下,源现在使用缓冲请求传输编码。升级后的管道将保留其以前的配置。
- HEAD 请求响应会创建一个空记录。从 HEAD 返回的信息显示在记录标头属性中。
- HTTP 服务器源增强功能 - 源现在包括在远程主机记录标头属性中发出请求的客户端或代理的名称。
- MongoDB 原点增强功能 - 您现在可以使用日期字段作为偏移字段。
- Oracle CDC 客户端源增强功能 - 源包括以下更改和增强功能:
- Salesforce 源增强功能 - 使用 SOAP API 时,源现在可以执行包含一个或多个子查询的 SOQL 查询。对使用批量 API 的子查询的支持将在将来的版本中添加。
处理器
- 新的全文件转换器处理器 - 使用整个文件转换器处理器将完整写入的 Avro 文件转换为整个文件管道中的 Parquet。
- 字段哈希器处理器增强功能 - 处理器现在可以在哈希之前将用户定义的字段分隔符添加到字段中。
- HTTP 客户端处理器增强功能 - 处理器包括以下更改和增强功能:
- 默认情况下,处理器现在使用缓冲请求传输编码。升级后的管道将保留其以前的配置。
- HEAD 请求响应会创建一个空记录。从 HEAD 返回的信息显示在记录标头属性中。
- 现在,当数据收集器日志记录设置为调试或更高版本时,解析的请求 URL 将写入数据收集器日志。
- JDBC 查找处理器增强功能 - 使用本地缓存时,处理器现在可以使用其他内核来预填充缓存,以增强管道性能。
目的地
- 新建库奇库目标 - 将数据写入库奇库数据库的新目标。
- 新斯普伦克目标 - 使用斯普伦克 HTTP 事件收集器 (HEC) 将数据写入斯普伦克的新目标。
- 卡桑德拉目标增强功能 - 您现在可以使用 SSL/TLS 连接到卡桑德拉。
- HTTP 客户端目标增强功能 - 默认情况下,目标现在使用缓冲请求传输编码。升级后的管道将保留其以前的配置。
遗嘱 执行 人
- Amazon S3 执行程序增强功能 – 执行程序包括以下增强功能:
- 执行程序现在可以将对象复制到新位置,并可以选择删除原始对象。
- 现在,每次执行程序创建新对象、向现有对象添加标记或完成将对象复制到新位置时,执行程序都可以生成事件记录。
数据收集器边缘(SDC 边缘))
- 新系统指标源 - 从安装 SDC Edge 的边缘设备读取系统指标(如 CPU 和内存使用情况)的新来源。
- 支持 HTTP 客户端源 - 边缘发送管道现在支持 HTTP 客户端源。但是,源当前不支持边缘管道中的批处理模式、分页或 OAuth2 授权。
- 支持 Web 平台客户端源 - 边缘发送管道现在支持 Web平台客户端源。
- 管道函数 - 边缘管道现在支持以下管道函数:
- 管道:id()
- 管道:标题()
- 管道:用户()
- 预览和验证边缘管道 - 现在可以使用数据收集器 UI 或命令行和 REST API 来预览和验证边缘管道。
- 将多个边缘管道发布到 SDC 边缘 - 现在可以使用数据收集器主页一次将多个边缘管道直接发布到正在运行的 SDC 边缘。以前,一次只能发布一条边缘管道。
- 从 SDC 边缘下载边缘管道 - 现在可以使用数据收集器 UI 下载部署到 SDC 边缘的所有边缘管道,以及 SDC Edge 附带的所有示例边缘管道。
- 按边缘管道筛选主页 - 现在可以在数据收集器主页上选择边缘管道作为类别,以查看所有可用的边缘管道。
微服务管道
现在,可以使用微服务管道创建微服务。在微服务管道中使用以下新阶段:- 新的 REST 服务源 - 侦听 HTTP 终结点,解析所有授权请求的内容,并将响应发送回原始 REST API。创建多个线程以在多线程管道中启用并行处理。
- 将响应发送到源目标 - 将包含指定响应的记录发送到管道中的微服务源。
管道
- 通知 - 现在可以将管道配置为在管道更改为Running_Error状态时发送电子邮件或 Webhook。
- 错误记录 - 当生成错误记录的管道由控制中心作业启动时,错误记录现在包括 errorJobID 内部标头属性。
- 从属性面板安装外部库 - 现在可以在管道画布中选择一个阶段,然后从属性面板中为该阶段安装外部库。以前,您必须导航到“程序包管理器”页才能安装外部库。
群集管道
- 新的集群 EMR 批处理模式 - 数据收集器现在可以使用集群 EMR 批处理模式在 Amazon EMR 集群上运行,以处理来自 Amazon S3 的数据。数据收集器在 EMR 集群中作为应用程序在 MapReduce 之上运行。
数据收集器可以在现有 EMR 集群上运行,也可以在集群管道启动时预置的新 EMR 集群上运行。预置新的 EMR 集群时,您可以配置集群是在管道停止时保持活动状态还是终止。
使用 Hadoop FS 源在集群 EMR 批处理模式下处理来自 Amazon S3 的数据。
- 日志 - 您现在可以在主网关节点上配置数据收集器,以使用 log4j 滚动文件追加器将日志消息写入 sdc.log 文件。此配置将传播到工作线程节点,以便每个数据收集器工作线程将日志消息写入 YARN 应用程序目录中的 sdc.log 文件。
数据格式
- 新的 Excel 数据格式 - 您现在可以使用以下基于文件的源来处理 Excel 文件:
- 亚马逊 S3 源
- 目录来源
- 谷歌云存储起源
- 断续器/FTP 客户端源
- Avro 和 Protobuf 数据格式 - 为了保留字段的顺序,Avro 和 Protobuf 数据格式现在使用列表映射根字段类型,而不是映射根字段类型。
舞台库
- 流集-数据收集器-cdh_5_15-lib - Hadoop 的 Cloudera CDH 5.15 分布。
- 流集-数据收集器-emr_hadoop_2_8_3-lib - 包括用于在 Amazon EMR 集群上运行的集群 EMR 批处理模式管道的 Hadoop FS 源,以处理来自 Amazon S3 的数据。
杂项
- Cloudera 管理器 CSD 增强功能 - 云端管理器 CSD 现在支持指定生成支持包时使用的流集客户 ID。客户 ID 由 StreamSet 支持团队为具有付费订阅的用户生成。
- 后格里斯重命名 - 后格里斯CSV和后格里斯文本分隔格式类型现在分别称为后格雷SQL CSV和后greSQL文本,分别是后格里斯元数据处理器现在称为后greSQL元数据处理器。用于后滞的漂移同步解决方案现在被称为后greSQL的漂移同步解决方案。
- 文档增强功能 - 联机帮助具有新的外观和感觉。前面的所有文档都完全保留在您期望的位置,但现在在平板电脑或手机等较小的设备上查看和导航变得更加容易。
3.3.1 中的新增功能
起源
- JDBC 多表使用者源增强功能 - 您现在可以选择定义模式排除模式,以排除某些模式以供读取。模式排除模式使用基于 Java 的正则表达式或正则表达式。
处理器
- 库杜查找处理器增强功能:
- 现在,您可以配置“最大工作线程数”属性来限制处理器使用的线程数。
- 现在可以配置“管理操作超时”属性,以确定允许多少毫秒进行管理类型的操作,例如打开表或获取表架构。
目的地
- 库杜目的地增强功能:
- 现在可以配置“最大工作线程数”属性来限制目标使用的线程数。
- 现在可以配置“管理操作超时”属性,以确定允许多少毫秒进行管理类型的操作,例如打开表或获取表架构。
环境变量
- 数据收集器现在包括一个SPARK_KAFKA_VERSION环境变量,该变量在数据收集器环境配置文件 - 或 中默认设置为 0.10。不要更改此环境变量值。仅当您在 Cloudera CDH 集群上运行集群流式处理模式管道时,才会使用此变量。
sdc.env.sh
sdcd.env.sh
3.3.0 中的新增功能
数据收集器 3.3.0 版包括以下新功能和增强功能:
群集管道
- 在从 YARN 上的 Kafka 群集读取的群集管道中使用 Spark 2.1 或更高版本和 Kafka 0.10.0.0 或更高版本时,现在可以使管道能够使用 Kafka 安全功能,如 SSL/TLS 和 Kerberos 身份验证。
起源
- WebSocket 客户端源增强功能 - 您现在可以将源配置为在连接到 WebSocket 服务器后发送初始消息或命令。
处理器
- 新的 SQL 分析器处理器 - 分析 SQL 查询的处理器。例如,如果在 Oracle CDC 源中将“分析 SQL 查询”属性设置为 false,则源会将 SQL 查询写入可由 SQL 分析器分析的“sql”字段。
- 字段 Zip 处理器增强功能 - “字段不存在”属性的“继续”选项现在名为“包括而不处理”。
管道
- 通知 - 现在可以将管道配置为在管道更改为Stop_Error状态时发送电子邮件或 Webhook。
- 预览 - “预览超时”属性的默认值已增加到 30,000 毫秒。以前,默认值为 10,000 毫秒。
边缘管道
- 传感器读取器原点增强功能 - 此开发阶段现在可以生成包含热数据的记录,例如 BCM2835 板载热传感器生成的记录。
舞台库
-
此版本的数据收集器包括几个新的、已更改的和已删除的阶段库,因为引入了群集流式处理模式,支持使用 Spark 2.1 或更高版本的 Kafka 安全功能和 Kafka 0.10.0.0 或更高版本。
有关已更改的阶段库的详细信息,请参阅升级到 Spark 2.1 或更高版本。
3.2.0.0 中的新增功能
数据收集器版本 3.2.0.0 包括以下新功能和增强功能:
起源
- 新的 Hadoop FS 独立源 - 与目录源类似,Hadoop FS 独立源可以使用多个线程来读取完整写入的文件。在独立执行模式管道中使用此源来读取 HDFS 中的文件。
- 新的 MapR FS 独立源 - 与目录源类似,MapR FS 独立源可以使用多个线程来读取完全写入的文件。在独立执行模式管道中使用此源来读取 MapR FS 中的文件。
- 新的开发快照重播源 - 开发快照重播源是从下载的快照文件中读取记录的开发阶段。
- HTTP 客户端源增强功能 - 您现在可以配置源以处理包含多个 JSON 对象或单个 JSON 数组的 JSON 文件
- JDBC 多表使用者源增强功能 - 源现在可以在完成处理表或模式中的所有行时生成表已完成和模式已完成事件。您还可以配置源延迟生成无更多数据事件的秒数。如果希望表完成或架构完成事件显示在无更多数据事件之前的事件流中,则可能需要配置延迟。
- Oracle CDC 客户端源增强功能 - 源包括以下增强功能:
- 可以将新的“分析 SQL 查询”属性设置为 false,以跳过分析 SQL 查询。相反,源将 SQL 查询写入可在以后解析的“sql”字段。默认值为 true,它保留以前分析 SQL 查询的行为。
- 属性已重命名。新名称是“在标头中发送重做查询”。
- TCP 服务器源增强功能 - 现在,当在 Flume 事件中作为 Avro 消息传递时,您可以使用源读取支持的数据收集器数据格式。
处理器
- HTTP 客户端处理器增强功能 - 您现在可以将 PATCH 方法与处理器一起使用。
- JDBC 查找处理器增强功能 - “缓存未命中时重试”属性已重命名为“在缺少值时重试”。
- Kudu 查找处理器增强功能 - 您现在可以配置查找不返回任何值时的处理器行为。
目的地
- Hadoop FS、本地 FS 和 MapR FS 目标增强功能 - 这些目标现在支持使用 SDC 记录格式写入记录。
- HTTP 客户端目标增强功能 - 您现在可以对目标使用 PATCH 方法。
- KineticaDB 目标增强功能 - 您现在可以定义自定义工作线程节点 URL 的列表,以便目标使用主机名而不是 IP 地址连接到工作线程节点。
遗嘱 执行 人
- 映射还原执行程序增强功能 - 您现在可以使用新的 Avro 到 ORC 作业将 Avro 文件转换为 ORC 文件。
数据收集器边缘(SDC 边缘))
- 支持 JavaScript 赋值器处理器 - 边缘发送管道和边缘接收管道现在都支持 JavaScript 评估器处理器。
- 将边缘管道发布到 SDC 边缘 - 现在可以使用数据收集器 UI 将边缘管道直接发布到正在运行的 SDC 边缘。以前,必须首先从数据收集器导出边缘管道,然后将其移动到安装在边缘设备上的 SDC Edge。
- 从数据收集器 UI 管理边缘管道 - 现在可以使用数据收集器 UI 启动、监视、停止和重置在远程 SDC 边缘上运行的边缘管道的源。以前,您必须使用命令行和 REST API 来管理 SDC 边缘上的边缘管道。
杂项
- 管道错误处理增强功能 - 现在可以配置管道以将错误记录写入 Azure 事件中心。
- 管道运行程序空闲时间增强功能 - 可以配置管道运行程序在发送空批处理之前等待的秒数。
- 运行时统计信息增强功能 - 运行时统计信息现在包括管道生成的空或空闲批处理数。
- 快照增强功能 - 快照现在包括错误记录的记录标头属性。以前,快照仅包含错误记录中的记录字段。
阶段
3.1.2.0 中的新增功能
- 目录源增强功能 - 使用上次修改时间戳读取顺序处理文件时,目录源现在除了上次修改的时间戳外,还会评估更改时间戳,以建立文件处理顺序。
- 控制中心的模拟增强功能 - 您现在可以将数据收集器配置为将部分控制中心用户 ID 用于 Hadoop 模拟模式和 shell 模拟模式。当数据收集器注册到控制中心时,以及当 Hadoop 或目标操作系统的用户名要求不允许使用完整的控制中心用户 ID 时,请使用此功能。
- NetFlow 9 处理增强功能 - 处理 NetFlow 9 数据时,数据收集器现在包括FIELD_SENDER和FIELD_RECIPIENT字段,以包括发送方和接收方信息。
3.1.1.0 中的新增功能
起源
- 目录源增强功能 - 源包括以下增强功能:
- “目录中的最大文件数”属性已重命名为“最大文件数软限制”。顾名思义,该属性现在是软限制,而不是硬限制。因此,如果目录包含的文件数多于配置的 Max Files 软限制,则源可以暂时超过软限制,并且管道可以继续运行。
以前,此属性是硬性限制。当目录包含更多文件时,管道将失败。
- 源包括一个新的假脱机周期属性,该属性确定在超过最大文件软限制后继续将文件添加到处理队列的秒数。
- “目录中的最大文件数”属性已重命名为“最大文件数软限制”。顾名思义,该属性现在是软限制,而不是硬限制。因此,如果目录包含的文件数多于配置的 Max Files 软限制,则源可以暂时超过软限制,并且管道可以继续运行。
目的地
- 爱因斯坦分析目标增强功能 - 对于新管道,“将时间戳追加到别名”属性现在处于默认禁用状态。禁用后,目标可以追加、删除、覆盖或更新数据到现有数据集。启用后,目标会为每次上传数据创建一个新数据集。
该属性是在版本 3.1.0.0 中添加的,默认情况下处于启用状态。默认情况下,从 3.1.0.0 之前的版本升级的管道具有启用该属性。
- Solr 目标增强功能 - 目标包括以下增强功能:
- 目标现在包含“忽略可选字段”属性,该属性允许在写入记录时忽略可选字段中的 null 值。
- 目标允许您配置“等待刷新”、“等待搜索器”和“软提交”属性以优化写入性能。
3.1.0.0 中的新增功能
后记数据同步解决方案
此版本包括 Postgres 数据同步解决方案的测试版。该解决方案使用新的 Postgres 元数据处理器来检测传入数据中的偏差,并在写入数据之前根据需要自动创建或更改相应的 PostgreSQL 表。该解决方案还利用 JDBC 创建器目标来执行写入。
作为测试版功能,请将 Postgres 数据同步解决方案仅用于开发或测试。请勿在生产环境中使用该解决方案。
计划在将来的版本中支持其他数据库。要说明首选项,请对此问题发表评论。
数据收集器边缘(SDC 边缘)
SDC 边缘包括以下增强功能:- 边缘管道现在支持以下阶段:
- 开发原始数据源源
- 卡夫卡生产者目的地
- 边缘管道现在支持以下功能:
- 空列表()
- 空地图()
- 是空地图()
- 是空列表()
- 长度()
- 记录:属性()
- 记录:属性或默认值()
- 大小()
- 启动 SDC 边缘时,现在可以更改默认日志目录。
起源
- HTTP 客户端源增强功能 - 现在可以将源配置为使用“响应字段中的链接”分页类型。处理当前页面后,此分页类型使用响应正文中的字段来访问下一页。
- HTTP 服务器源增强功能 - 您现在可以使用源来处理授权的 HTTP PUT 请求的内容。
- Kinesis 使用者原点增强功能 - 您现在可以定义要应用于原点创建的用于存储偏移量的 DynamoDB 租约表的标签。
- MQTT 订阅服务器源增强功能 - 源现在包含一个TOPIC_HEADER_NAME记录标头属性,其中包含每条记录的主题信息。
- MongoDB 源增强 - 当源处理完所有可用文档并且配置的批处理等待时间已过时,源现在会生成无更多数据事件。
- Oracle CDC 客户端源增强功能 - 您现在可以通过在表包含模式和排除模式中使用类似 SQL 的语法来指定要处理的表。
- 原点增强功能 - 原点包括以下增强功能:
- 发起人现在可以订阅 Salesforce 平台事件。
- 您现在可以将源配置为使用 Salesforce PK 分块。
- 必要时,可以禁用查询验证。
- 现在,您可以使用相互身份验证连接到 Salesforce。
处理器
- 新字段替换器处理器 - 将字段中的值替换为 null 或新值的新处理器。
现场更换器处理器替换已弃用的价值更换器处理器。字段替换器处理器允许您定义更复杂的条件来替换值。例如,字段替换器可以替换位于指定范围内的值。值替换器不能替换位于指定范围内的值。
流集建议您尽快更新值替换器管道。
- 新的 Postgres 元数据处理器 - 一个新的处理器,用于确定数据结构何时发生更改,并相应地创建和更改 PostgreSQL 表。仅在开发或测试环境中用作 Postgres 的漂移同步解决方案的一部分。
- 聚合器处理器增强功能 - 处理器包括以下增强功能:
- 事件记录现在包括聚合的结果。
- 现在可以为事件记录指定根字段。您可以使用字符串或映射根字段。升级后的管道将保留以前的行为,将聚合数据写入 String 根字段。
- JDBC 查找处理器增强功能 - 处理器包括以下增强功能:
- Kudu 查找处理器增强功能 - 处理器不再需要您将主键列添加到键列映射中。但是,仅添加非主键可能会降低查找的性能。
- 销售队伍查找处理器增强功能 - 您现在可以使用相互身份验证连接到销售队伍。
目的地
- 新航空指点 - 将数据写入气管的新定位。
- 新建命名管道目标 - 将数据写入 UNIX 命名管道的新目标。
- 爱因斯坦分析目标增强功能 - 目标包括以下增强功能:
- 可以指定包含数据集的边缘市场容器的名称。
- 您可以定义要执行的操作:追加、删除、覆盖或更新插入。
- 现在,您可以使用相互身份验证连接到 Salesforce。
- 弹性搜索目标增强功能 - 您现在可以配置目标以合并使用 执行更新的数据。
doc_as_upsert
- 销售队伍目标增强功能 - 目标包括以下增强功能:
- 目标现在可以发布 Salesforce 平台事件。
- 现在,您可以使用相互身份验证连接到 Salesforce。
数据格式
- 日志数据格式增强功能 - 数据收集器现在可以使用以下日志格式类型处理数据:
- 通用事件格式
- 日志事件扩展格式
表达式语言
- 错误记录函数 - 此版本包括以下新功能:
- 记录:错误堆栈跟踪() - 返回记录的错误堆栈跟踪。
- 时间函数 - 此版本包括以下新功能:
- 时间:日期时区偏移量() - 返回指定日期和时区时区的偏移量(以毫秒为单位)。
- 时间:时区偏移量() - 返回指定时区的时区偏移量(以毫秒为单位)。
- 其他函数 - 此版本包括以下已更改和新增功能:
- 运行时:loadResource() - 此函数已更改为在返回文件中的值之前修剪文件中的任何前导或尾随空格字符。以前,该函数不会修剪空格字符 - 您必须避免在文件中包含不必要的字符。
- 运行时:loadResourceRaw() - 返回指定文件中的值(包括文件中的任何前导或尾随空格字符)的新功能。
其他舞台库
此版本包括以下附加阶段库:- 阿帕奇库杜 1.6
- Cloudera 5.13 阿帕奇卡夫卡 2.1 的分布
- Cloudera 5.14 阿帕奇卡夫卡 2.1 的分布
- Cloudera CDH 5.14 Hadoop 的分布
- 动力学 6.1
杂项
- 数据收集器类路径验证 - 数据收集器现在在启动时执行类路径运行状况检查。运行状况检查的结果将写入数据收集器日志。如有必要,您可以将数据收集器配置为跳过运行状况检查或在出现错误时停止。
- 支持包数据收集器属性 - 可以在数据收集器配置文件中配置属性,以使数据收集器在出现问题时自动上载支持包。默认情况下,该属性处于禁用状态。
- 重定向已注册的数据收集器用户登录属性 - 您可以在 Control Hub 配置文件 中启用属性,以使用 HTML 元刷新方法将数据收集器用户登录名重定向到 Control Hub。
dpm.properties
- 运行时属性增强功能 - 现在可以在运行时属性中使用环境变量。
3.0.3.0 中的新增功能
- MySQL 二进制日志源增强 - 现在,您可以通过配置“启用保持活动线程”和“保持活动间隔”高级属性,使用“保持活动状态”线程连接到 MySQL 服务器。
默认情况下,源使用间隔为一分钟的“保持活动状态”线程。升级后的管道也使用新的默认值。
- HTTP 客户端处理器增强功能 - 处理器现在可以处理压缩数据。
- 脚本处理器增强功能 - Groovy 评估器、JavaScript 评估程序和 Jython 评估程序处理器可以使用新的布尔 sdcFunction.isPreview() 方法来确定管道是否处于预览模式。
3.0.2.0 中的新增功能
- SFTP/FTP 客户端源增强功能 - 源现在可以在开始和完成文件处理以及处理完所有可用文件时生成事件。
3.0.1.0 中的新增功能
- Azure IoT/事件中心使用者源增强 - Azure 事件中心使用者源已重命名为 Azure IoT/事件中心使用者源。
- HTTP 服务器源增强功能 - HTTP 服务器源现在包括路径和查询字符串记录标头属性,以及请求中包含的任何其他 HTTP 标头属性。
- 蒙哥DB源增强 - 蒙哥DB原点和蒙哥DB运算源现在都支持二进制数据的委托认证和BSON数据类型。
- SQL 服务器 CDC 源增强功能 - SQL 服务器 CDC 源现在包括名为 jdbc 的记录标头属性中的 SQL 服务器 CDC __$command_id 列中的信息。__$command_id.
- 蒙哥DB目标增强 - 蒙哥DB目的地现在支持委派身份验证。
3.0.0.0 中的新增功能
安装
- Java 要求 - 数据收集器现在同时支持 Oracle Java 8 和 OpenJDK 8。
- RPM 包 - 流集现在提供以下数据收集器 RPM 包:
- EL6 - 用于在 CentOS 6、甲骨文 Linux 6 或红帽企业版 Linux 6 上安装数据收集器
- EL7 - 用于在 CentOS 7、甲骨文 Linux 7 或红帽企业版 Linux 7 上安装数据收集器。
以前,流集提供了一个 RPM 包,用于在任何这些操作系统上安装数据收集器。
边缘管道
现在可以设计和运行边缘管道,以便从边缘设备读取数据或将数据发送到边缘设备。边缘管线是双向的。他们可以将边缘数据发送到其他数据收集器管道以进行进一步处理。或者,它们可以从其他管道接收数据,然后对该数据执行操作以控制边缘设备。
边缘管道在流集数据收集器边缘(SDC 边缘)上的边缘执行模式下运行。SDC 边缘是一个轻量级代理,没有在边缘设备上运行管道的 UI。在要运行边缘管道的每个边缘设备上安装 SDC 边缘。
在数据收集器中设计边缘管道,导出边缘管道,然后使用命令在边缘设备上安装的 SDC Edge 上运行边缘管道。
起源
- 新的亚马逊 SQS 消费者源 - 从亚马逊简单队列服务 (SQS) 读取消息的源。可以创建多个线程以在多线程管道中启用并行处理。
- 新的谷歌云存储来源 - 读取谷歌云存储中完全写入对象的来源。
- 新的映射数据库 CDC 源 - 读取已更改的已写入映射流的映射数据库数据的源。可以创建多个线程以在多线程管道中启用并行处理。
- 新的 MapR 多主题流 使用者源 - 从多个 MapR 流主题读取消息的源。它可以创建多个线程,以便在多线程管道中启用并行处理。
- 新的 UDP 多线程源源 - 源在一个或多个端口上侦听 UDP 消息,并将传入的数据包排在中间队列上进行处理。它可以创建多个线程,以便在多线程管道中启用并行处理。
- 新的 Web浏览器客户端源 - 从 Web浏览器服务器终结点读取数据的源。
- 新的窗口事件日志源 - 从微软视窗事件日志中读取数据的源。只能在为边缘执行模式配置的管道中使用此源。
- 新的传感器读取器开发源 - 为边缘管道生成样本大气数据的开发源。
- 亚马逊 S3 源增强功能:
- 目录源增强功能 - 源现在可以使用多个线程来执行文件的并行处理。
- HTTP 客户端源增强功能 - 源现在可以将请求和响应数据记录到数据收集器日志中。
- JDBC 多表使用者来源增强功能:
- 现在,源可以对没有主键或偏移列的表使用非增量处理。
- 现在,您可以指定要在执行其他任务之前与数据库建立连接后执行的 Init 查询。例如,这可用于修改会话属性。
- 新的“每秒查询数”属性确定每秒可以运行的查询数。
此属性替换“查询间隔”属性。有关升级可能影响的信息,请参阅 JDBC 多表使用者查询间隔更改。
- JDBC 查询使用者源增强功能:
- 现在,您可以指定要在执行其他任务之前与数据库建立连接后执行的 Init 查询。例如,这可用于修改会话属性。
- JDBC 查询使用者源中的微软 SQL 服务器 CDC 功能现已弃用,并将在将来的发行版中从源中删除。有关升级信息,请参阅更新用于 SQL 服务器 CDC 数据的 JDBC 查询使用者管道。
- Kafka 多主题消费者原产地增强功能 - 除了阿帕奇卡卡 0.10 阶段库之外,该原点现在在以下阶段库中可用:
-
阿帕奇卡夫卡 0.9
-
CDH 卡夫卡 2.0 (0.9.0) 和 2.1 (0.9.0)
-
HDP 2.5 和 2.6
-
- Kinesis 使用者源增强功能 - 您现在可以指定源重试查询的次数。默认值为 3。
- Oracle CDC 客户端源增强功能:
- 使用 SCN 进行初始更改时,源现在将指定的 SCN 视为起点,而不是查找完全匹配项。
- 原点现在将原始数据作为字节数组传递到管道。
- 对于记录中不受支持的数据类型,源现在可以包含已分析的 SQL 查询中的未分析字符串。
- 默认情况下,源现在使用本地缓冲,而不是 Oracle 日志矿工缓冲。升级后的管道不需要更改。
- 源现在支持读取“带时区的时间戳”数据类型。读取带有时区数据的时间戳时,原点包括数据收集器已分区日期时间数据类型中日期时间数据的偏移量。它不包括时区 ID。
- SQL 服务器 CDC 客户端源增强功能 - 您现在可以对 SQL 服务器 CDC 客户端源执行以下任务:
- UDP 源源增强 - 使用多个 epoll 接收器线程启用的“启用多线程”属性现在名为“使用本机传输(epoll)”。
处理器
- 新的聚合器处理器 - 在一段时间内聚合数据的处理器。在监视模式下显示结果,并且可以将结果写入事件。
- 新延迟处理器 - 可以将处理一批记录延迟一段指定时间的处理器。
- 字段类型转换器处理器增强功能 - 您现在可以将字符串转换为 Zoned Datetime 数据类型,反之亦然。您还可以指定要使用的格式。
- Hive 元数据处理器增强功能 - 您现在可以配置要传递给 JDBC 驱动程序的其他 JDBC 配置属性。
- HTTP 客户端处理器增强功能:
- JDBC 查找和 JDBC Tee 处理器增强功能 - 您现在可以指定要在执行其他任务之前在与数据库建立连接后执行的初始化查询。例如,这可用于修改会话属性。
- Kudu 查找处理器增强功能 - 缓存 Kudu 表属性现在名为“启用表缓存”。“要缓存表对象的最大条目数”属性现在名为“要缓存的最大表条目数”。
- Salesforce 查找处理器增强功能 - 您可以使用新的检索查找模式来查找一组记录的数据,而不是逐条记录查找。以前版本中提供的模式现在称为 SOQL 查询。升级后的管道不需要更改。
目的地
- 新的谷歌云存储目的地 - 一个新的目的地,将数据写入谷歌云存储中的对象。目标可以生成用作数据流触发器的事件。
- 新的动态数据库目标 - 将数据写入动态性能表的新目标。
- Amazon S3 目标增强功能 – 您现在可以指定目标重试查询的次数。默认值为 3。
- 配置单元元存储目标增强功能 - 现在可以配置其他 JDBC 配置属性以传递给 JDBC 驱动程序。
- HTTP 客户端目标增强功能:
- 目标现在可以将请求和响应数据记录到数据收集器日志中。
- 除了以前的数据格式之外,现在还可以使用 HTTP 客户端目标来写入 Avro、分隔和原型布夫数据。
- JDBC 创建者目标增强功能 - 您现在可以指定要在执行其他任务之前在与数据库建立连接后执行的 Init 查询。例如,这可用于修改会话属性。
- Kudu 目标增强功能 - 如果目标从以下源系统接收到更改数据捕获日志,则现在必须在“更改日志格式”属性中指定源系统,以便目标可以确定日志的格式:Microsoft SQL Server、Oracle CDC 客户端、MySQL 二进制日志或 MongoDB 操作日志。
- 映射器数据库 JSON 目标增强功能 - 目标现在支持根据记录标头属性中的 CRUD 操作以及“插入 API”和“设置 API”属性写入 MapR 数据库。
- MongoDB 目标增强功能 - 在此版本中,目标不再支持更新插入操作。相反,目标包括以下增强功能:
有关升级现有更新插入管道的信息,请参阅更新 MongoDB 目标更新插入管道。
- Redis 目标增强功能 - 目标现在支持使用存储在记录标头属性中的 CRUD 操作来处理数据。
- Salesforce 目标增强功能 - 使用 Salesforce 批量 API 更新、插入或更新插入数据时,您现在可以使用冒号 (:)或句点 (.) 作为字段分隔符,在定义要将数据收集器字段映射到的 Salesforce 字段时。例如,或两者都是有效的“Salesforce”字段。
Parent__r:External_Id__c
Parent__r.External_Id__c
- 波浪分析目标重命名 - 在此版本中,波浪分析目标现在被命名为爱因斯坦分析目标,这是继最近的 Salesforce 品牌重塑之后。目标的所有属性和功能保持不变。
执行者
- 配置单元查询执行程序增强功能 - 您现在可以配置其他 JDBC 配置属性以传递给 JDBC 驱动程序。
- JDBC 查询执行器增强功能 - 您现在可以指定要在执行其他任务之前在与数据库建立连接后执行的 Init 查询。例如,这可用于修改会话属性。
Cloudera Navigator
Cloudera 导航器集成现已作为流集商业订阅的一部分发布。早期版本中包含的测试版在数据收集器中不再可用。有关流集商业订阅的信息,请联系流集。有关在启用 Cloudera 导航器集成的情况下升级数据收集器版本的信息,请参阅禁用云传送导航器集成。
凭据存储
- 网络方舟 - 数据收集器现在为赛博方舟应用程序标识管理器提供凭据存储实现。您可以在CyberArk中定义外部系统所需的凭据 - 用户名或密码。然后,在 JDBC 阶段属性中使用凭证表达式语言函数来检索这些值,而不是直接在阶段属性中输入凭证值。
- 支持的阶段 - 现在可以在需要输入敏感信息的所有阶段中使用凭据函数。以前,您只能在 JDBC 阶段中使用凭证函数。
数据收集器配置
默认情况下,当数据收集器重新启动时,它会自动重新启动数据收集器关闭之前正在运行的所有管道。现在,您可以通过在文件中配置运行器.boot.pipeline.restart 属性来禁用管道的自动重新启动。$SDC_CONF/sdc.properties
数据流性能管理器/流集控制中心
- 流集控制中心 - 在此版本中,我们创建了一个名为流集控制中心断续器其中包括许多新的基于云的数据流设计、部署和纵向扩展功能。由于此版本现在是我们用于控制数据流的核心服务,因此我们已将 StreamSets 云体验从“数据流性能管理器 (DPM)”重命名为“流集控制中心”。
DPM 现在是指驻留在云中的性能管理功能,例如实时指标和数据 SLA。已购买 StreamSets 企业版的客户将获得对所有控制中心功能的访问权限,并继续像以前一样访问所有 DPM 功能。
要了解端到端 StreamSets 数据操作平台以及这些产品如何组合在一起,请访问 DataOps Platform for Modern Data Integration | StreamSets。
- 聚合统计信息 - 使用控制中心时,您现在可以配置管道以将聚合统计信息写入 MapR 流。
数据格式
- 新的网络流 9 支持 - 数据收集器现在支持处理基于网络流 9 模板的消息。以前处理过 NetFlow 5 数据的阶段现在也可以处理 NetFlow 9 数据。
- 数据报数据格式增强功能 - “数据报数据格式”属性现在称为“数据报数据包格式”。
- 分隔数据格式增强功能 - 数据收集器现在可以使用 Postgres CSV 和“后记文本分隔格式类型”处理数据。
表达式语言
- 新字段路径表达式 - 您可以在特定阶段使用字段路径表达式来指定要在表达式中使用的字段。
- 新字段函数 - 可以在字段路径表达式中使用以下新字段函数:
- f:属性() - 返回指定属性的值。
- f:路径() - 返回字段的路径。
- f:type() - 返回字段的数据类型。
- f:value() - 返回字段的值。
- 新的字符串函数 - 该版本包括以下新函数:
- str:是空或空() - 根据字符串是空还是空字符串返回真或假。
- str:splitKV() - 将字符串中的键值对拆分为字符串值的映射。
舞台库
- 新舞台库 - 此版本包括以下新舞台库:
- 阿帕奇卡夫卡 1.0
- 阿帕奇卡夫卡 0.11
- 阿帕奇库杜 1.5
- Cloudera CDH 5.13
- Cloudera Kafka 3.0.0 (0.11.0)
- 霍顿沃克斯 2.6.1,包括蜂巢 1.2
- 霍顿沃克斯 2.6.2,包括蜂巢 1.2 和 2.0
- 映射器版本 6.0 (MEP 4)
- Mapr Spark 2.1 (MEP 3)
- 旧版舞台库 - 超过两年的舞台库不再包含在数据收集器中。尽管不建议这样做,但您仍然可以下载并安装较旧的舞台库作为自定义舞台库。
如果您有使用这些旧阶段库的管道,则需要更新管道以使用更新的阶段库或手动安装旧阶段库,有关详细信息,请参阅使用旧版阶段库更新管道。
- 统计信息阶段库增强功能 - 统计信息阶段库现在包含在核心数据收集器安装中。
杂项
- 新数据类型 - 数据收集器现在支持“已分区日期时间”数据类型。
- 新的数据收集器衡量指标 - JVM 衡量指标已重命名为数据收集器衡量指标,现在除了 JVM 衡量指标外,还包括常规数据收集器衡量指标。“JVM 衡量指标”菜单项也已重命名为 SDC 衡量指标。
- 管道错误记录 - 您现在可以将错误记录写入谷歌发布/订阅,谷歌云存储或MQTT代理。
- 快照增强功能:
- 时区增强功能 - 时区已组织并更新为使用 JDK 8 名称。这应该可以更轻松地在阶段属性中选择时区。在极少数情况下,您的管道使用 JDK 8 不支持的格式,请编辑管道以选择兼容的时区。
2.7.2.0 中的新增功能
起源
- 新的卡夫卡多主题消费者起源 - 一个新的来源,读取来自多个卡夫卡主题的消息。创建多个线程以在多线程管道中启用并行处理。
- Kinesis 使用者源增强功能 - 您现在可以将源配置为从指定的时间戳开始读取消息。
目的地
- 新的谷歌大查询目的地 - 一个新的目的地,将数据流式传输到谷歌大查询。
2.7.1.1 中的新增功能
起源
- Amazon S3 源增强功能 - 您现在可以指定连接超时高级属性。
- JDBC 多表使用者源增强功能 - 除了表之外,您现在还可以使用源从视图中读取。
- OPC UA 客户端源增强 - 您现在可以配置通道属性,例如最大块或消息大小。
- Oracle CDC 客户端源增强功能 - 您现在可以配置 JDBC 提取大小属性,以确定源在将数据传递到管道之前等待的最小记录数。当写入目标速度较慢时,请使用默认值 1 条记录来提高性能。以前,源使用 Oracle JDBC 驱动程序默认的 10 条记录。
执行者
- 新的 MapR FS 文件元数据执行程序 - 新的执行程序可以在每次收到事件时更改文件元数据、创建空文件或删除 MapR 中的文件或目录。
2.7.1.0 中的新增功能
舞台库
数据收集器包括以下升级的阶段库:起源
- 新的 Azure 事件中心使用者源 - 从微软 Azure 事件中心读取数据的多线程源。
- OPC UA 客户端源增强 - 现在可以在文件中指定节点信息。或者让源浏览基于指定根节点要使用的节点。
处理器
- 新的架构生成器处理器 - 为每条记录生成架构并将架构写入记录标头属性的处理器。
目的地
- 新建 Azure 事件中心创建者目标 - 将数据写入 Azure 事件中心的目标。
- 新建 Azure IoT 中心创建者目标 - 将数据写入微软 Azure IoT 中心的目标。
2.7.0.0 中的新增功能
数据收集器版本 2.7.0.0 包括以下新功能和增强功能:
凭据存储
数据收集器现在具有与以下凭据存储系统集成的凭据存储 API:- Java 密钥库
- 哈希科普保险库
您可以在 Java 密钥库文件或 Vault 中定义外部系统所需的凭证(用户名、密码或访问密钥)。然后,在 JDBC 阶段属性中使用凭证表达式语言函数来检索这些值,而不是直接在阶段属性中输入凭证值。
- JDBC 多表消费者来源
- JDBC 查询消费者源
- 甲骨文 CDC 客户端来源
- SQL 服务器 CDC 客户端源
- SQL 服务器更改跟踪源
- 日本电信查找处理器
- 京东半导体三通处理器
- JDBC 生产者目标
- JDBC 查询执行器
将管道元数据发布到 Cloudera 导航器(测试版)
数据收集器现在提供测试版支持,用于将有关正在运行的管道的元数据发布到 Cloudera 导航器。然后,您可以使用 Cloudera 导航器浏览管道元数据,包括查看元数据的沿袭图。
请随时在开发或测试数据收集器中试用此功能,并向我们发送您的反馈。我们正在继续完善元数据发布,因为我们从社区收集意见并与 Cloudera 合作。
舞台库
数据收集器配置
- 访问哈希科普保管库机密 - 数据收集器保管库集成现在依赖于保管库的应用角色身份验证后端。以前,数据收集器依赖于 Vault 的应用程序 ID 身份验证后端。哈希科普已弃用应用 ID 身份验证后端。
- 新的 Hadoop 用户模拟属性 - 如果使数据收集器能够在写入 Hadoop 时模拟当前数据收集器用户,则现在还可以将数据收集器配置为将用户名设为小写。这对于区分大小写的 LDAP 实现很有帮助。
- 新的 Java 安全性属性 - 数据收集器配置文件现在包含带有“java.security”前缀的属性,您可以使用该前缀来配置 Java 安全性属性。
- 用于定义缓存 DNS 查找的时间量的新属性 - 默认情况下,java.security.网络地址.cache.ttl 属性设置为 0,以便 JVM 使用域名服务 (DNS) 生存时间值,而不是在 JVM 的生存期内缓存查找。
- SDC_HEAPDUMP_PATH增强功能 - 新的默认文件名 包含时间戳,以便您可以将多个堆转储文件写入指定目录。
$SDC_LOG/sdc_heapdump_${timestamp}.hprof
数据流触发器
- 管道事件 - 事件框架现在在管道停止和启动时生成管道生命周期事件。可以将每个管道事件传递给执行程序或另一个管道以进行更复杂的处理。使用管道事件在管道处理开始之前或之后触发任务。
起源
- 新的谷歌大查询源 - 执行查询作业并从谷歌大查询读取结果的源。
- 新的谷歌发布/订阅者来源 - 使用来自谷歌发布/订阅订阅的消息的多线程来源。
- 新的 OPC UA 客户端源 - 处理来自 OPC UA 服务器的数据的源。
- 新的 SQL Server CDC 客户端源 - 从 Microsoft SQL Server CDC 表中读取数据的多线程源。
- 新的 SQL Server 更改跟踪源 - 一个多线程源,用于从 Microsoft SQL Server 更改跟踪表中读取数据并生成每条记录的最新版本。
- 目录源事件增强功能 - 目录源现在可以在完成对所有可用文件的处理并且批处理等待时间已过而没有新文件到达时生成无更多数据事件。此外,“文件已完成”事件现在包括已处理的记录和文件数。
- Hadoop FS 源增强 - Hadoop FS 源现在允许您使用 Hadoop 文件系统接口从其他文件系统读取数据。在群集批处理管道中使用 Hadoop FS 源。
- HTTP 客户端源增强 - HTTP 客户端源现在允许在请求正文中使用时间函数和日期时间变量。它还允许您指定在评估请求正文时要使用的时区。
- HTTP 服务器源增强 - HTTP 服务器源现在可以处理 Avro 文件。
- JDBC 查询使用者源增强功能 - 您现在可以配置源遇到未知数据类型的数据时的行为。
- JDBC 多表使用者来源增强功能:
- 现在,您可以使用源对表中的分区执行多线程处理。使用分区处理来处理更大的数据量。此增强功能还包括新的 JDBC 标头属性。
默认情况下,所有新管道都尽可能使用分区处理。升级的管道使用多线程表处理来保留以前的行为。
- 现在,您可以配置源遇到未知数据类型的数据时的行为。
- 现在,您可以使用源对表中的分区执行多线程处理。使用分区处理来处理更大的数据量。此增强功能还包括新的 JDBC 标头属性。
- Oracle CDC 客户端源增强功能:
- 源现在可以在本地缓冲数据,而不是利用 Oracle 日志挖掘器缓冲区。
- 现在,您可以指定源遇到不受支持的字段类型时的行为 - 发送到管道、发送到错误或丢弃。
- 您可以将源配置为包含从 LogMiner 完整补充日志记录传递的空值。默认情况下,原点忽略空值。
- 现在,您必须为源选择目标服务器时区。
- 您现在可以为源配置查询超时。
- 源现在包括 oracle.cdc.rowId 记录标头属性中的行 ID,并且可以在 oracle.cdc.query 记录标头属性中包含日志矿工重做查询。
- RabbitMQ 使用者源增强功能 - 如果可用,源现在提供 RabbitMQ 生成的属性,例如内容类型、内容编码和交付模式,作为记录标头属性。
- TCP 服务器源增强功能 - 源现在可以处理包含长度前缀的基于字符的数据。
- UDP 源源增强 - 源现在可以处理二进制和基于字符的原始数据。
- 新的上次修改时间记录标头属性 - 目录、文件尾部和 SFTP/FTP 客户端源现在包括 mtime 记录标头属性中记录的源文件的上次修改时间。
处理器
- 新的数据分析器处理器 - 使用新的处理器提取 NetFlow 或 syslog 消息以及嵌入在字段中的其他受支持的数据格式。
- 新的 JSON 生成器处理器 - 使用新的处理器将数据从记录字段序列化为 JSON 编码的字符串。
- 新的 Kudu 查找处理器 - 使用新处理器在 Kudu 中执行查找,以使用其他数据丰富记录。
- Hive 元数据处理器增强功能 - 现在可以为元数据记录配置自定义记录标头属性。
目的地
- 新的谷歌发布/订阅发布商目标 - 向谷歌发布消息的目标页面。
- 新的 JMS 创建者目标 - 将数据写入 JMS 的目标。
- 亚马逊 S3 目标增强功能:
- Azure 数据湖存储目标增强功能 - 客户端 ID 和客户端密钥属性已重命名为“应用程序 ID”和“应用程序密钥”,以便与新 Azure 门户中更新的属性名称保持一致。
- 卡桑德拉目标增强功能 - 如果您已安装数据斯塔克斯企业 Java 驱动程序,则目标现在支持 Kerberos 身份验证。
- 弹性搜索目标增强功能 - 目标现在可以在同一索引中的文档之间创建父子关系。
- Hive 元存储目标 - 现在可以配置目标以创建自定义记录标头属性。
- 卡夫卡创建者目标增强功能 - 目标现在可以编写 XML 文档。
- Solr 目标增强功能 - 您现在可以将目标配置为在 Solr 配置文件 未定义默认搜索字段 (“df”) 参数时跳过连接验证。
solrconfig.xml
遗嘱 执行 人
- 新的 Amazon S3 执行程序 – 使用 Amazon S3 执行程序为指定内容创建新的 Amazon S3 对象,或在每次收到事件时向现有对象添加标签。
- HDFS 文件元数据执行程序增强功能 - 执行程序现在可以在收到事件时删除文件或目录。
数据流性能管理器
- 还原对已发布管道的更改 - 如果更新已发布的管道,但决定不将更新作为新版本发布到 DPM,则可以还原对管道配置所做的更改。
管道
- 管道错误处理增强功能:
- 使用新的错误记录策略指定要包含在错误记录中的记录版本。
- 您现在可以将错误记录写入亚马逊 Kinesis 流。
- 错误记录增强功能 - 错误记录现在在错误标签标头属性中包含用户定义的阶段标签。
- 管道状态增强功能 - 管道现在可以显示以下新状态:STARTING_ERROR、STOPPING_ERROR和STOP_ERROR。
数据格式
- 编写 XML - 您现在可以使用谷歌发布/订阅发布者、JMS 创建者以及 Kafka 创建者目标将 XML 文档写入目标系统。在使用此数据格式之前,请注意记录结构要求。
- 阿夫罗:
- 源现在将 Avro 架构写入 avroSchema 记录标头属性。
- 原点现在包括每个十进制字段的精度和小数位数字段属性。
- 数据收集器现在支持在版本 1.8 中添加的基于时间的逻辑类型。
- 分隔 - 当行的字段多于标题时,数据收集器现在可以继续处理具有分隔数据的记录。以前,字段多于标题的行会被发送到错误。
群集管道
- 使用新的“辅助角色计数”属性来限制群集 Yarn 流式处理管道中使用的辅助角色节点数。默认情况下,将为主题的每个分区生成一个数据收集器工作线程。
- 现在可以定义要传递给 spark 提交脚本的 Spark 配置属性。
表达式语言
- 凭据:get() - 从凭据存储中返回凭据值。
- 凭据:getWithOptions() - 使用其他选项从凭据存储中返回凭据值,以便与凭据存储进行通信。
- 记录:错误堆栈标签() - 返回生成错误记录的阶段的用户定义名称。
- list:join() - 使用元素之间的指定分隔符将列表字段中的元素合并到字符串字段中。
- 列表:连接SkipNulls() - 使用元素之间指定的分隔符和跳过空值,将列表字段中的元素合并到字符串字段中。
- str:indexOf() - 返回指定字符子集首次出现的字符串内的索引。
杂项
- 全局批量编辑模式 - 在以前单击“添加”图标以添加其他配置的任何属性中,现在可以切换到批量编辑模式以 JSON 格式输入配置列表。
- 快照增强功能 - 快照在等待数据时不再生成空批次。
- Webhooks 增强功能 - 可以在 Web 钩子中使用多个新的管道状态通知参数。
2.6.0.1 中的新增功能
- Kinesis 使用者源 - 您现在可以重置 Kinesis 使用者管道的源。重置 Kinesis 消费者的原产地与其他产地不同,因此请注意要求和指南。
2.6.0.0 中的新增功能
安装
- MapR 先决条件 - 现在可以在交互或非交互模式下运行命令。在交互模式下,该命令会提示您输入 MapR 版本和主目录。在非交互模式下,在运行命令之前,可以在环境变量中定义 MapR 版本和主目录。
setup-mapr
舞台库
数据收集器现在支持以下阶段库:-
霍顿沃克斯版本2.6阿帕奇哈多普的分布
- Spark 2.1 的 Cloudera 分布
- 火花 2.1 的映射R 分布
数据收集器配置
- 新的缓冲区大小配置 - 现在可以使用新的 parser.limit 配置属性来增加数据收集器分析器缓冲区大小。源使用解析器缓冲区来处理许多数据格式,包括分隔符、JSON 和 XML。解析器缓冲区大小限制源可以处理的记录的大小。默认情况下,数据收集器分析器缓冲区大小为1048576字节。
用于 Hive 的漂移同步解决方案
- Parquet 支持 - 您现在可以使用 Hive 的漂移同步解决方案来生成 Parquet 文件。以前,数据同步解决方案仅支持 Avro 数据。此增强功能包括以下更新:
- Hive 元数据处理器数据格式属性 - 使用新的数据格式属性指示要使用的数据格式。
- 蜂巢元存储目标中的 Parquet 支持 - 目标现在可以在 Hive 中创建和更新 Parquet 表。目标不再包含数据格式属性,因为该信息现在已在 Hive 元数据处理器中配置。
多线程管道
多线程框架包括以下增强功能:
数据流触发器/事件框架
数据流性能管理器 (DPM)
- 管道统计信息 - 现在可以将管道配置为将统计信息直接写入 DPM。在单个数据收集器上运行管道作业时,将统计信息直接写入 DPM。
在多个数据收集器上运行作业时,远程管道实例将在每个数据收集器上运行。要查看 DPM 中作业的聚合统计信息,您必须配置管道以将统计信息写入 Kafka 集群、Amazon Kinesis 流或 SDC RPC。
- 更新已发布的管道 - 更新已发布的管道时,Data Collector 现在会在管道名称旁边显示一个红色星号,以指示管道自上次发布以来已更新。
起源
- 新的 CoAP 服务器源 - 侦听 CoAP 终结点并处理所有授权 CoAP 请求的内容的源。源执行并行处理,并且可以生成多线程管道。
- 新的 TCP 服务器源 - 侦听指定端口的源,与启动 TCP 连接的客户端建立 TCP 会话,然后处理传入的数据。源可以将 NetFlow、系统日志和大多数数据收集器数据格式作为单独的记录进行处理。您可以配置自定义确认消息,并在消息中使用新的 batchSize 变量以及其他表达式。
- SFTP/FTP 客户端源增强功能 - 您现在可以指定要处理的第一个文件。这使您能够跳过处理具有较早时间戳的文件。
处理器
- 时髦、JavaScript 和强同测评器处理器增强功能:
- 现在,您可以在初始化中包含 sdcFunctions 脚本对象的一些方法,并销毁处理器的脚本。
- 现在,您可以在为 Groovy 赋值器处理器开发的代码中使用运行时参数。
- Hive 元数据处理器增强功能:
- Hive 元数据处理器现在可以将 Parquet 数据作为 Hive 漂移同步解决方案的一部分进行处理。
- 您现在可以指定要使用的数据格式:Avro 或 Parquet。
- 现在,您可以配置一个表达式来定义生成的列的注释。
- JDBC 查找处理器增强功能:
- JDBC 查找处理器现在可以返回多个值。现在,您可以将查找配置为返回第一个值或将所有匹配项作为单独的记录返回。
- 监视包含 JDBC Lookup 处理器的管道时,现在可以查看有关处理器进行的查询数和查询的平均时间的阶段统计信息。
- 火花评估器增强功能 - 火花评估器现在支持 Spark 2.x。
目的地
- 新建 CoAP 客户端目标 - 写入 CoAP 终结点的目标。
- 配置单元元存储目标增强功能:
- 目标现在可以在 Hive 中创建和更新 Parquet 表。
- 此外,数据格式属性已被删除。现在,在 Hive 元数据处理器中指定数据格式。
由于 Hive 元存储以前仅支持 Avro 数据,因此不会对升级产生影响。
-
Kudu 目标增强功能 - 可以使用新的“突变缓冲区空间”属性来设置 Kudu 客户端用于写入每个批次的缓冲区大小。
遗嘱 执行 人
- 新的电子邮件执行程序 - 用于在收到事件时发送自定义电子邮件。有关案例研究,请参阅案例研究:发送电子邮件。
-
新的外壳执行程序 - 用于在收到事件时执行外壳脚本。
-
JDBC 查询执行程序增强功能 - 新的批处理提交属性允许执行程序在每个批处理后提交到数据库。以前,默认情况下,执行程序不调用提交。
对于新管道,默认情况下启用该属性。对于升级的管道,将禁用该属性以防止管道行为发生更改。
- 火花执行程序增强功能 - 执行程序现在支持 Spark 2.x。
-
REST 接口/命令行接口
- 偏移量管理 - REST API 和命令行界面现在都可以检索管道上次保存的偏移量,并在管道未运行时设置管道的偏移量。使用这些命令可通过外部存储系统实现管道故障切换。否则,管道偏移由数据收集器管理,无需更新偏移。
表达式语言
- 库:读取增强功能 - 库:读取函数现在支持返回嵌套在映射中的键的值。
常规
- 支持包 - 您现在可以使用数据收集器生成支持包。支持包是一个 ZIP 文件,其中包含数据收集器日志、环境和配置信息、管道 JSON 文件、资源文件和管道快照。
您将生成的文件上传到 StreamSets 支持团队,以便我们可以使用这些信息对您的支持票证进行故障排除。
-
TLS 属性增强功能 - 支持 SSL/TLS 的阶段现在提供以下增强的属性集,可实现更具体的配置:
- 密钥库和信任库类型 - 您现在可以在 Java 密钥库 (JKS) 和 PKCS #12 (p-12) 之间进行选择。以前,数据收集器仅支持 JKS。
- 传输协议 - 现在可以指定要允许的传输协议。默认情况下,数据收集器仅允许 TLSv1.2。
- 密码套件 - 现在可以指定要允许的密码套件。数据收集器提供了一组现代的默认密码套件。以前,数据收集器始终允许 JRE 的默认密码套件。
-
群集模式增强功能 - 群集流式处理模式现在支持 Spark 2.x。有关将 Spark 2.x 阶段与群集模式配合使用的信息,请参阅群集管道限制。
- 前提条件增强 - 具有用户定义的前提条件的阶段现在处理所有前提条件,然后再将记录传递给错误处理。这允许错误记录在错误消息中包含所有前提条件故障。
- 管道导入/导出增强功能 - 导出多个管道时,数据收集器现在将所有管道包含在单个 zip 文件中。还可以从单个 zip 文件导入多个管道。
2.5.1.0 中的新增功能
- 新的舞台库 - 数据收集器现在支持Hadoop的云端CDH版本5.11分发和阿帕奇卡夫卡2.1的云太版本5.11分发。
升级到此版本可能需要更新现有管道。有关详细信息,请参阅使用云端 CDH 5.11 或更高版本。
2.5.0.0 中的新增功能
数据收集器版本 2.5.0.0 包括以下新功能和增强功能:
多线程管道
- 多线程管道的源 - 现在可以使用以下源来创建多线程管道:
- 弹性搜索起源
- JDBC 多表消费者来源
- 运动消费者来源
- 网页浏览器服务器源
- 最大管线运行程序数 - 您现在可以配置要在管线中使用的最大管线运行程序数。以前,数据收集器根据源创建的线程数生成管道运行程序。这允许您调整性能和资源使用情况。默认情况下,数据收集器仍会根据源使用的线程数生成运行器。
- 记录重复数据删除器处理器增强功能 - 处理器现在可以跨多线程管道中的所有管道运行程序对重复数据删除记录。
- 管道验证增强功能 - 管道现在将使用多个线程生成的重复错误显示为一条错误消息。
- 日志增强功能 - 多线程管道现在在日志信息中包含运行程序 ID。
- 监视 - 监视现在显示可用管道运行程序的直方图,替换以前包含在“运行时统计信息”列表中的信息。
管道
- 数据收集器管道权限更改 - 在此版本中,默认情况下不再启用管道权限。若要启用管道权限,请编辑数据收集器配置属性。
pipeline.access.control.enabled
- 停止管道执行 - 可以将管道配置为传输数据,并根据事件(如到达表的末尾)自动停止执行。JDBC 和 Salesforce 源在到达管道完成程序用于停止管道的可用数据的末尾时,可以生成事件。单击此处查看案例研究。
- 管道运行时参数 - 现在可以在配置管道时定义运行时参数,然后从该管道中调用这些参数。从用户界面、命令行或 REST API 启动管道时,请指定要用于这些参数的值。使用管道参数表示任何阶段或管道属性,其中包含必须针对每个管道运行更改的值,例如批大小和超时、目录或 URI。
在以前的版本中,管道运行时参数被命名为管道常量。您在管道中定义了常量值,但在启动管道时无法传递不同的值。
- 管道 ID 增强功能 - 数据收集器现在在管道 ID 前面加上为管道标题输入的字母数字字符。例如,如果输入“Oracle 转 HDFS”作为管道标题,则管道 ID 具有以下值:OracleToHDFStad9f592-5f02-4695-bb10-127b2e41561c。
- 用于管道状态更改和警报的 Webhook - 除了发送电子邮件之外,你现在还可以配置管道状态更改以及指标和数据警报以调用 Webhook。例如,您可以在 Slack 中配置传入的 Webhook,以便可以将警报发布到 Slack 通道。或者,可以将 Webhook 配置为在管道状态更改为“已完成”或“已停止”时启动另一个管道。
- 强制管道从命令行停止 - 如果管道仍处于“正在停止”状态,现在可以使用命令行强制立即停止管道。
舞台库
数据收集器现在支持阿帕奇库杜版本1.3.x.舞台库。
销售团队阶段
- 销售团队起源和 Salesforce 查找处理器
- 源和处理者可以使用代理连接到 Salesforce。
- 您现在可以在 SOQL 查询中指定。源或处理器将 * 扩展到 Salesforce 对象中可供配置用户访问的所有字段。
SELECT * FROM <object>
- 来源和处理器生成 Salesforce 字段属性,这些属性提供有关每个字段的其他信息,例如 Salesforce 字段的数据类型。
- 源和处理者现在可以另外从 Salesforce 回收站中检索已删除的记录。
- 现在,源在完成所有可用数据的处理后可以生成事件。
- Salesforce 目标 - 目标现在可以使用 CRUD 操作记录标头属性来指示要对每条记录执行的操作。您还可以将目标配置为使用代理连接到 Salesforce。
- 波次分析目标 - 您现在可以配置身份验证终结点和目标用于连接到 Salesforce 波次分析的 API 版本。您还可以将目标配置为使用代理连接到 Salesforce。
起源
- 新的弹性搜索源 - 从弹性搜索集群读取数据的源。源使用弹性搜索滚动 API,通过用户定义的弹性搜索查询读取文档。源执行并行处理,并且可以生成多线程管道。
- 新的 MQTT 订阅者源 - 订阅 MQTT 代理上的主题以从代理读取消息的源。
- 新的 WebSocket 服务器源 - 侦听 WebSocket 终结点并处理所有授权的 WebSocket 请求的内容的源。源执行并行处理,并且可以生成多线程管道。
- 开发数据生成器源增强功能 - 将源配置为生成事件以测试事件处理功能时,现在可以指定要使用的事件类型。
- HTTP 客户端源增强功能 - 使用分页时,除了指定结果字段路径中的字段外,源还可以包括结果记录中的所有响应字段。源现在还可以处理以下新数据格式:二进制、分隔、日志和 SDC 记录。
- HTTP 服务器源增强 - 源要求 HTTP 客户端在所有请求中包含应用程序 ID。现在可以将 HTTP 客户端配置为将数据发送到在查询参数中包含应用程序 ID 的 URL,而不是在请求标头中包含应用程序 ID。
- JDBC 多表使用者源增强功能 - 源现在执行并行处理,并且可以生成多线程管道。源在完成所有可用数据的处理后可以生成事件。
还可以配置引号字符,以便在查询中的表、架构和列名称周围使用。您可以配置线程在收到 SQL 错误后尝试读取一批数据的次数。
- JDBC 查询使用者源增强功能 - 源现在可以在完成所有可用数据的处理以及成功完成或未能完成查询时生成事件。
若要处理暂时性连接或网络错误,现在可以指定源在停止管道之前应重试查询的次数。
- Kinesis 使用者源增强 - 源现在执行并行处理,并且可以生成多线程管道。
- 蒙哥DB源和蒙哥DB Oplog源增强 - 除了用户名/密码认证之外,源现在还可以使用LDAP身份验证来连接到MongoDB。现在,您还可以在 MongoDB 连接字符串中包含凭据。
处理器
- 新字段顺序处理器 - 对映射或列表映射字段中的字段进行排序并将字段输出到列表映射或列表根字段中的处理器。
- 字段拼合器增强功能 - 您现在可以就地拼合字段以将其提升到父级别。
- Groovy、JavaScript 和 Jython 赋值器处理器增强功能 - 您现在可以开发一个初始化脚本,处理器在管道启动时运行一次。使用初始化脚本设置处理器所需的连接或资源。
还可以开发一个销毁脚本,当管道停止时,处理器将运行该脚本一次。使用销毁脚本关闭处理器打开的任何连接或资源。
- JDBC 查找增强功能 - 缺省值日期格式。当默认值数据类型为“日期”时,请使用以下格式:yyyy/MM/dd 。当默认值数据类型为“日期时间”时,请使用以下格式:年/月/日。
- 记录重复数据删除器处理器增强功能 - 处理器现在可以跨多线程管道中的所有管道运行程序对重复数据删除记录。
- 火花计算器处理器增强功能 - 处理器现在包含在 MapR 5.2 阶段库中。
该处理器现在还提供群集模式管道的测试版支持。在开发或测试环境中,可以在管道中使用处理器,以在群集流式处理模式下处理来自 Kafka 或 MapR 群集的数据。不要在生产环境中的群集模式管道中使用 Spark 计算器处理器。
目的地
- 新建 HTTP 客户端目标 - 写入 HTTP 终结点的目标。
- 新建 MQTT 发布者目标 - 将消息发布到 MQTT 代理上的主题的目标。
- 新建 Web索克客户端目标 - 写入 Web索克终结点的目标。
- Azure 数据湖存储目标增强功能 - 现在可以为输出文件配置空闲超时。
- 卡桑德拉目标增强功能 - 目标现在支持卡桑德拉 uuid 和 timeuuid 数据类型。现在,您可以指定要使用的卡桑德拉批处理类型:已记录或未记录。以前,目标使用记录的批处理类型。
- JDBC 创建器增强功能 - 源现在包含用于输入模式名称的模式名称属性。有关可能的升级影响的信息,请参阅配置 JDBC 创建者模式名称。
在写入数据库时,还可以使用“封闭对象名称”属性将数据库/架构、表和列名称括在引号中。
- 映射器数据库 JSON 目标增强功能 - 您现在可以输入一个表达式,该表达式的计算结果为要写入的 MapR 数据库 JSON 表的名称。
- 蒙哥DB目标增强功能 - 除了用户名/密码认证之外,目的地现在还可以使用LDAP身份验证来连接到蒙哥DB。现在,您还可以在 MongoDB 连接字符串中包含凭据。
- SDC RPC 目标增强功能 - 您现在输入的“回退周期”值在每次重试后呈指数级增长,直到达到 5 分钟的最长等待时间。以前,最长等待时间没有限制。“每次批处理重试次数”属性的最大值现在是无限制的 - 以前是 10 次重试。
- Solr 目标增强功能 - 您现在可以配置目标在遇到记录中缺少的字段时执行的操作。目标可以丢弃字段、将记录发送到错误或停止管道。
遗嘱 执行 人
- 新的 Spark 执行器 - 执行器每次收到事件时都会在 YARN 或数据砖集群上启动 Spark 应用程序。
- 新的管道完成器执行程序 - 执行程序停止管道,并在收到事件时将其转换为“已完成”状态。可与 JDBC 查询使用者、JDBC 多表使用者和 Salesforce 源一起使用,以执行可用数据的批处理。
- HDFS 文件元数据执行程序增强功能 - 执行程序现在可以在收到事件时创建一个空文件。执行器还可以在生成事件时生成文件创建的事件。
- MapReduce 执行程序增强功能 - 当启动提供的 Avro 到 Parquet 作业时,执行器现在可以覆盖从上次运行的作业中创建的任何临时文件。
功能
- 新的转义 XML 函数 - 三个新的字符串函数使您能够转义和取消转义 XML。
- 新的管道用户函数 - 新的管道用户函数使您能够确定启动管道的用户。
- 用于生成 UUID 的新功能 - 使您能够生成 UUID 的新功能。
- 新函数返回可用处理器的数量 - 运行时:可用处理器() 函数返回 Java 虚拟机可用的处理器数。
常规增强功能
- 数据收集器 Hadoop 模拟增强功能 - 可以使用数据收集器配置属性来确保数据收集器使用当前数据收集器用户读取或写入 Hadoop 系统。
stage.conf_hadoop.always.impersonate.current.user
启用后,您无法在以下 Hadoop 相关阶段中配置备用用户:- 哈多普FS的起点和目的地
- 映射FS起点和目的地
- 数据库查找和目标
- 地图数据库目的地
- HDFS 文件元数据执行器
- 映射化简执行器
- 阶段前提条件属性增强 - 现在,将根据阶段中配置的错误处理来处理不满足阶段的所有先决条件的记录。以前,它们是根据为管道配置的错误处理来处理的。有关升级的信息,请参阅评估前提条件错误处理。
- XML 分析增强功能 - 可以使用“包括字段 XPath”属性在记录中包括字段 XPath 表达式和命名空间。并使用新的“输出字段特性”属性将 XML 特性和命名空间声明写入字段特性,而不是将它们作为字段包含在记录中。
- 在属性中换行 - 现在可以将数据收集器配置为换行在属性中输入的长行文本,而不是使用滚动条显示文本。
2.4.1.0 中的新增功能
- Salesforce 源增强功能 - 当源处理现有数据且未订阅通知时,它现在可以定期重复指定的查询。源可以重复完整查询或增量查询。
- 日志数据显示 - 您可以在数据收集器日志页面上停止和重新启动最新日志数据的自动显示。
- 新的时间函数 - 该函数允许从字符串日期时间值创建针对时区调整的日期对象。
time:createDateFromStringTZ
- 新的舞台库舞台类型图标 - 舞台库现在显示图标以区分不同的舞台类型。
2.4.0.0 中的新增功能
数据收集器版本 2.4.0.0 包括以下新功能和增强功能:
管道共享和权限
数据收集器现在提供管道级权限。权限确定用户和组对管道的访问级别。若要创建多租户环境,请创建用户组,然后与这些组共享管道以授予不同级别的访问权限。
默认情况下,进行此更改后,只有管道所有者和具有 Admin 角色的用户才能查看管道。如果从以前版本的数据收集器升级,请参阅以下升级后任务,配置管道权限。
此功能包括以下组件:- 管道权限 - 管道现在具有读取、写入和执行权限。管道权限覆盖现有的数据收集器角色,以提供更高的安全性。有关信息,请参阅角色和权限。
- 管道共享 - 管道所有者和具有管理员角色的用户可以为用户和组配置管道权限。
- 数据收集器管道访问控制属性 - 可以通过管道.access.control.已启用配置属性来启用和禁用管道权限的使用。默认情况下,此属性处于启用状态。
- 权限传输 - 可以将与用户或组关联的所有管道权限传递给其他用户或组。使用管道传输在注册 DPM 后或在用户或组过时后轻松迁移权限。
数据流性能管理器 (DPM)
- 向 DPM 注册数据收集器 - 如果数据收集器使用基于文件的身份验证,并且从数据收集器 UI 注册数据收集器,则现在可以在注册过程中创建 DPM 用户帐户和组。
- DPM 的聚合统计信息 - 使用 DPM 时,现在可以配置管道以将聚合的统计信息写入 SDC RPC。将统计信息写入 SDC RPC 仅用于开发目的。对于生产环境,请使用 Kafka 集群或 Amazon Kinesis 流来聚合统计信息。
起源
- 具有缓冲源的开发 SDC RPC - 从 SDC RPC 目标接收记录的新开发阶段,在将记录传递到管道中的下一阶段之前,将记录临时缓冲到磁盘。用作 SDC RPC 目标管道中的源。
- Amazon S3 源增强功能 - 您可以配置新的文件池大小属性,以确定源存储在内存中以便在加载和排序 S3 上存在的所有文件后进行处理的最大文件数。
其他 __________
- 新舞台库 - 此版本支持以下新舞台库:
- 库杜版本 1.1 和 1.2
-
Cloudera CDH 版本 5.10 分发的 Hadoop
- Cloudera 版本 5.10 分发版 卡夫卡 2.1
- 使用数据收集器用户界面安装外部库 - 现在可以使用数据收集器用户界面安装外部库,以使其可用于阶段。例如,您可以为使用 JDBC 连接的阶段安装 JDBC 驱动程序。或者,您可以安装外部库以从 Groovy、Java 和 Jython 赋值器处理器调用外部 Java 代码。
- 自定义标头增强功能 - 现在可以在 ui.header.title 配置属性中使用 HTML 为数据收集器 UI 配置自定义标头。这允许您指定您使用的任何文本的外观,并在页眉中包含小图像。
- Groovy 增强功能 - 您可以将处理器配置为使用调用动态字节码指令。
- 管道重命名 - 现在,除了编辑“标题常规管道”属性外,还可以通过在编辑管道时直接单击管道名称来重命名管道。
2.3.0.1 中的新增功能
- Oracle CDC 客户端源增强功能 - 从重做日志读取字典时,源现在可以跟踪并适应架构更改。在重做日志中使用字典时,源还可以为其读取的每个 DDL 生成事件。
- 新建数据收集器属性 - 数据收集器配置文件中的 http.enable.forwarded.requests 属性允许处理由反向代理或负载平衡器发出的 X 转发请求标头、X 转发请求标头、X 转发请求源。
- MongoDB 原点增强功能 原点现在支持使用任何字符串字段作为偏移量字段。
2.3.0.0 中的新增功能
多线程管道
您可以使用多线程源生成多线程管道以执行并行处理。新的多线程框架包括以下更改:
-
HTTP 服务器源 - 侦听 HTTP 终结点并处理所有授权的 HTTP POST 请求的内容。使用 HTTP 服务器源接收使用多个线程的大量 HTTP POST 请求。
-
增强的开发数据生成器源 - 可以创建多个线程来测试多线程管道。
-
增强的运行时统计信息 - 监视管道将显示管道中所有线程的聚合运行时统计信息。您还可以查看正在使用的运行器(即线程和管道实例)的数量。
疾病预防控制中心/CRUD 增强功能
在此版本中,某些数据收集器阶段使您能够轻松处理管道中的更改数据捕获 (CDC) 或事务数据。sdc.operation.type 记录标头属性现在由所有启用了 CDC 的源和启用了 CRUD 的阶段使用:-
现在,通过在 sdc.operation.type 记录标头属性中包含 CRUD 操作类型,启用了 MongoDB 操作日志和 Salesforce 源来处理更改的数据。
-
尽管以前启用了 CDC,但适用于 Microsoft SQL Server 的 Oracle CDC 客户端和 JDBC 查询使用者现在在 sdc.operation.type 记录标头属性中包含 CRUD 操作类型。
对于向后兼容,仍支持以前的操作类型标头属性。
-
JDBC T 形处理器和 JDBC 创建器现在可以基于记录标头中的 CRUD 操作处理更改的数据。这些阶段还包括默认操作和不受支持的操作处理。
-
现在,MongoDB 和弹性搜索目标在 sdc.operation.type 记录标头属性中查找 CRUD 操作。弹性搜索目标包括默认操作和不受支持的操作处理。
多表拷贝
当您需要将多个表复制到目标系统或用于数据库复制时,可以使用新的 JDBC 多表使用者源。JDBC 多表使用者源通过 JDBC 连接从多个表中读取数据库数据。源根据您定义的表配置生成 SQL 查询。
配置
- 用于基于文件的身份验证的组 - 如果使用基于文件的身份验证,则现在可以在多个用户使用数据收集器时创建用户组。您可以在数据收集器配置目录 $SDC_CONF 中的关联 realm.properties 文件中配置组。
如果使用基于文件的身份验证,则现在还可以查看被授予数据收集器访问权限的所有用户帐户,包括分配给每个用户的角色和组。
-
LDAP 身份验证增强功能 - 您现在可以将数据收集器配置为使用 StartTLS 与 LDAP 服务器建立安全连接。您还可以配置用户筛选属性以定义用于登录到数据收集器的 LDAP 用户属性。例如,用户名、uid 或电子邮件地址。
-
出站请求的代理配置 - 现在可以将数据收集器配置为对数据流性能管理器 (DPM) 的出站请求使用经过身份验证的 HTTP 代理。
-
Java 垃圾回收器日志记录 - 默认情况下,数据收集器现在启用 Java 垃圾回收器的日志记录。日志将写入$SDC_日志/gc.log。如果需要,可以禁用日志记录。
- 内存不足错误的堆转储 - 如果遇到内存不足错误,数据收集器现在默认生成堆转储文件。您可以配置堆转储文件的位置,也可以禁用此默认行为。
- 修改日志级别 - 现在可以使用数据收集器 UI 修改日志级别,以在另一个严重性级别显示消息。
管道
- 管道重命名 - 现在可以通过编辑“标题常规管道”属性来重命名管道。
-
字段属性 - 数据收集器现在支持字段级属性。使用表达式计算器添加字段属性。
起源
- 新的 HTTP 服务器源 - 一个多线程源,它侦听 HTTP 终结点并处理所有授权的 HTTP POST 请求的内容。使用 HTTP 服务器源读取使用多个线程的大量 HTTP POST 请求。
-
新的 HTTP 到卡夫卡源 - 侦听 HTTP 终结点,并将所有授权的 HTTP POST 请求的内容直接写入卡夫卡。用于读取大量 HTTP POST 请求并将其写入卡夫卡。
-
新的 MapR 数据库 JSON 源 - 从 MapR 数据库 JSON 表中读取 JSON 文档。
-
新的蒙哥DB操作日志源 - 从蒙哥DB操作日志中读取条目。用于处理数据或数据库操作的更改信息。
-
目录原点增强功能 - 除了 glob 模式之外,您还可以使用正则表达式来定义用于处理文件的文件名模式。
-
HTTP 客户端源增强 - 现在可以将源配置为使用 OAuth 2 协议连接到 HTTP 服务。
- JDBC 查询使用者源增强功能 - JDBC 使用者源已重命名为 JDBC 查询使用者源。源的功能与先前版本中的功能相同。它通过 JDBC 连接使用用户定义的 SQL 查询读取数据库数据。现在,您还可以将源配置为为 JDBC 连接启用自动提交方式并禁用 SQL 查询的验证。
- MongoDB 原点增强功能 - 您现在可以使用嵌套字段作为偏移字段。源支持读取蒙哥DB版本2.6及更高版本的蒙哥DB BSON时间戳。您可以将源配置为连接到单个MongoDB服务器或节点。
处理器
- 字段类型转换器处理器增强功能 - 您现在可以配置处理器以将长字段中的时间戳数据转换为 String 数据类型。以前,您必须使用一个字段类型转换器处理器将长字段转换为日期时间,然后使用另一个处理器将日期时间字段转换为字符串。
-
HTTP 客户端处理器增强功能 - 您现在可以将处理器配置为使用 OAuth 2 协议连接到 HTTP 服务。您还可以为处理器配置速率限制,该限制定义每秒要发出的最大请求数。
-
JDBC 查找处理器增强功能 - 您现在可以配置处理器以启用 JDBC 连接的自动提交模式。还可以将处理器配置为使用缺省值(如果数据库不返回列的查找值)。
-
Salesforce 查找处理器增强功能 - 如果 Salesforce 未返回字段的查找值,您现在可以将处理器配置为使用默认值。
-
XML 分析器增强功能 - 新的“多值行为”属性允许您在定义分隔符元素并且文档包含多个值时指定行为:将第一个值作为记录返回,返回一条记录,每个值都有一个列表字段,或者将所有值作为记录返回。
目的地
- 新的 MapR 数据库 JSON 目标 - 将数据作为 JSON 文档写入 MapR 数据库 JSON 表。
-
Azure 数据湖存储目标增强功能 - 现在可以在群集批处理管道中使用目标。您还可以处理二进制和 protobuf 数据,使用记录头属性将记录写入文件和滚动文件,以及配置文件后缀和可写入文件的最大记录数。
-
弹性搜索目标增强功能 - 目标现在使用弹性搜索 HTTP API。借助此 API,弹性搜索版本 5 阶段库与所有版本的弹性搜索兼容。早期阶段的库版本已被删除。Java 7 不再支持弹性搜索。您需要验证数据收集器机器上是否安装了 Java 8,并从 $SDC_CONF/sdc.属性中的黑名单属性中除去此阶段,然后才能使用它。
现在,您还可以将目标配置为执行以下任何 CRUD 操作:创建、更新、删除或索引。
-
Hive 元存储目标增强功能 - 新表事件现在包含有关表中的列和分区的信息。
-
Hadoop FS、本地 FS 和 MapR FS 目标增强功能 - 目标现在通过在管道重新启动时重命名临时文件来支持管道意外停止后的恢复。
- Redis 目标增强功能 - 您现在可以为目标写入 Redis 的每个键配置超时。
遗嘱 执行 人
-
配置单元查询执行程序增强功能:
- 执行器现在可以为其收到的每个事件执行多个查询。
- 它还可以在每次处理查询时生成事件记录。
-
JDBC 查询执行器增强功能 - 您现在可以配置执行程序以启用 JDBC 连接的自动提交方式。
数据格式
- 整个文件增强 - 您现在可以指定传输速率,以帮助控制用于处理整个文件的资源。您可以在处理整个文件的所有源中指定速率限制。
表达式语言
- 新管道函数 - 可以使用以下新管道函数返回管道信息:
- 管道:id() - 返回管道 ID,这是数据收集器自动生成并用于标识管道的 UUID。
注意:现有 pipeline:name() 函数现在返回管道 ID 而不是管道名称,因为管道 ID 是标识管道的正确方法。
-
管道:标题() - 返回管道标题或名称。
- 管道:id() - 返回管道 ID,这是数据收集器自动生成并用于标识管道的 UUID。
-
新记录函数 - 可以使用以下新记录函数来处理字段属性:
- 记录:字段属性(<字段路径>,<属性名称>) - 返回指定字段属性的值。
- 记录:字段属性或默认值(<字段路径>、<属性名称>、<默认值>) - 返回指定字段属性的值。如果属性不存在或不包含任何值,则返回默认值。
-
新的字符串函数 - 可以使用以下新的字符串函数来转换字符串数据:
- str:urlEncode (<字符串>,<编码>) - 使用指定的编码格式从解码字符串返回 URL 编码的字符串。
- str:url解码(<字符串>,<编码>) - 使用指定的编码格式从 URL 编码字符串返回解码的字符串。
-
新的时间函数 - 可以使用以下新的时间函数来转换日期时间数据:
- 时间:日期时间毫秒(<日期对象>) - 将日期对象转换为纪元或 UNIX 时间(以毫秒为单位)。
- 时间:提取字符串(<字符串>,<格式字符串>) - 根据指定的日期格式从字符串中提取日期对象。
- 时间:提取字符串来自DateTZ (<日期对象>、<时区>、<格式字符串>) - 根据指定的日期格式和时区从 Date 对象中提取字符串值。
-
新增和增强的杂项函数 - 您可以使用以下新的和增强的杂项函数:
- 偏移量:列(<位置>) - 返回当前表的已定位偏移量列的值。仅在 JDBC 多表使用者源的附加偏移列条件中可用。
- 每个函数 - 您现在可以在目录模板中将该函数与 hh() 日期时间变量一起使用。这允许您根据指定的小时间隔创建目录。
2.2.1.0 中的新增功能
处理器
- 新建字段 Zip 处理器 - 在同一条记录中合并两个列表字段或两个列表映射字段。
- 新的 Salesforce 查找处理器 - 在 Salesforce 对象中执行查找,并将查找值传递到字段。使用 Salesforce 查找功能使用其他数据丰富记录。
- 值替换器增强功能 - 您现在可以使用条件将字段值替换为 null。
目的地
- Azure 数据湖存储目标中的整个文件支持 - 现在可以使用整个文件数据格式将整个文件流式传输到 Azure 数据湖存储。
2.2.0.0 中的新增功能
事件框架
数据收集器事件框架使管道能够根据管道中发生的操作触发外部系统中的任务,例如在管道将文件写入 HDFS 后运行 MapReduce 作业。您还可以使用事件框架来存储事件信息,例如源何时开始或完成读取文件。
有关详细信息,请参阅事件框架一章。
事件框架包括以下新功能和增强功能:- 新的执行器阶段。一种新型的阶段,在收到事件时在外部系统中执行任务。此版本包括以下执行程序:
- HDFS 文件元数据执行器 - 更改文件元数据,如名称、位置、权限和 ACL。
- 配置单元查询执行程序 - 运行配置单元或 Impala 查询。
- JDBC 查询执行程序 - 运行 SQL 查询。
- MapReduce 执行器 - 运行自定义 MapReduce 作业或 Avro 到 Parquet MapReduce 作业。
- 事件生成。以下阶段现在生成可在管道中使用的事件:
- 目录和文件尾部源 - 在开始并完成读取文件时生成事件。
- Amazon S3 目标 - 在完成写入对象或流式传输整个文件时生成事件。
- Hadoop FS、本地 FS 和 MapR FS 目标 - 当它们关闭输出文件或完成对整个文件的流式处理时生成事件。
- 时髦的评估器、JavaScript 评估程序和 Jython 评估器处理器 - 可以运行生成事件的脚本。
- HDFS 文件元数据执行器 - 在更改文件元数据时生成事件。
- 映射还原执行程序 - 在启动映射还原作业时生成事件。
- 开发阶段。可以使用以下阶段来开发和测试事件处理:
- 开发数据生成器增强功能 - 现在可以配置开发数据生成器以生成事件记录和数据记录。您还可以指定批处理中的记录数。
- 到事件 - 使用传入记录作为事件记录的正文生成事件记录。
安装
- 安装要求:
- Java 要求 - 支持 Oracle Java 7,但现在已弃用。甲骨文于 2015 年 4 月宣布终止 Java 7 的公开更新。流集建议迁移到 Java 8,因为 Java 7 支持将在将来的数据收集器版本中移除。
- 文件描述符要求 - 数据收集器现在至少需要 32,768 个打开的文件描述符。
- 核心安装仅包括基本舞台库 - 核心 RPM 和压缩包安装现在仅包括基本舞台库,以允许数据收集器使用更少的磁盘空间。使用包管理器进行压缩包安装或使用命令行安装 RPM 和压缩包安装来安装其他阶段库。
以前,核心安装还包括格鲁维、Jython 和统计阶段库。
配置
- 新的舞台库。数据收集器现在支持以下阶段库:
- 阿帕奇库杜版本1.0.x - 不再支持早期的库杜版本。
- Cloudera CDH 版本 5.9 分发的阿帕奇哈多普。
- Cloudera 版本 5.9 分发版的阿帕奇卡夫卡 2.0.
- 弹性搜索版本 5.0.x.
- 谷歌云大表。
- 霍顿沃克HDP版本2.5分发阿帕奇哈多普。
- 二进制日志。
- 销售团队。
- LDAP 身份验证 - 如果使用 LDAP 身份验证,则现在可以将数据收集器配置为连接到多个 LDAP 服务器。您还可以将数据收集器配置为支持 LDAP 部署,其中成员由 uid 或完整 DN 定义。
- Java 垃圾回收器 - 默认情况下,数据收集器现在使用并发标记扫描 (CMS) 垃圾回收器。通过修改数据收集器环境配置文件中的 Java 配置选项,可以将数据收集器配置为使用其他垃圾回收器。
- Java 配置选项的环境变量。数据收集器现在使用三个环境变量来定义 Java 配置选项:
- SDC_JAVA_OPTS - 包括所有 Java 版本的配置选项。SDC_JAVA7_OPTS - 包括仅在数据收集器运行 Java 7 时使用的配置选项。
- SDC_JAVA8_OPTS - 包括仅在数据收集器运行 Java 8 时使用的配置选项。
- 新时区属性 - 可以将数据收集器 UI 配置为使用 UTC、浏览器时区或数据收集器时区。时区属性影响日期和时间在 UI 中的显示方式。默认值为浏览器时区。
起源
- 新的MySQL二进制日志源 - 读取MySQL二进制日志以生成包含更改数据捕获信息的记录。
- 新的销售团队来源 - 从 Salesforce 读取数据。源可以执行 SOQL 查询以从 Salesforce 读取现有数据。源还可以订阅 Force.com 流式处理 API,以接收有关 Salesforce 数据更改的通知。
- 目录源增强功能 - 您可以将目录源配置为在对读取顺序使用上次修改的时间戳时从所有子目录中读取文件。
- JDBC 查询使用者和 Oracle CDC 客户端源增强功能 - 您现在可以配置 JDBC 查询使用者和 Oracle CDC 客户端源用于连接到数据库的事务隔离级别。以前,源使用为数据库配置的默认事务隔离级别。
处理器
- 新的 Spark 计算器处理器 - 基于您开发的 Spark 应用程序处理数据。使用 Spark 计算器处理器开发在管道中执行自定义处理的 Spark 应用程序。
- 字段拼合器处理器增强功能 - 除了拼合整个记录之外,现在还可以使用字段拼合器处理器拼合记录中的特定列表或映射字段。
- 字段类型转换器处理器增强功能 - 现在可以使用字段类型转换器处理器更改小数位数字段的比例。或者,如果将具有其他数据类型的字段转换为 Decimal 数据类型,则可以配置要在转换中使用的小数位数。
- 字段透视器处理器增强功能 - 列表透视器处理器已重命名为字段透视器处理器。现在,您可以使用处理器在列表、地图或列表映射字段中透视数据。您还可以使用处理器将第一级项的字段名称保存在透视字段中。
- JDBC 查找和 JDBC 三通处理器增强功能 - 您现在可以配置 JDBC 查找和 JDBC 三通处理器用于连接到数据库的事务隔离级别。以前,源使用为数据库配置的默认事务隔离级别。
- 脚本处理器增强功能 - Groovy 测值器、JavaScript 赋值器和 Jython 赋值器处理器可以生成事件记录并使用记录标头属性。示例脚本现在包括两者的示例以及用于生成唯一记录 ID 的新提示。
- XML 拼合器处理器增强功能 - 现在可以配置 XML 拼合器处理器,以将平展的数据写入新的输出字段。以前,处理器将平展的数据写入同一字段。
- XML 分析器处理器增强功能。现在,您可以使用简化的 XPath 表达式从 XML 文档生成记录。这样就可以从 XML 文档中的更深层次读取记录。
目的地
- 新建 Azure 数据湖存储目标 - 将数据写入微软 Azure 数据湖存储。
- 新的谷歌大表目标 - 将数据写入谷歌云大表。
- 新的销售队伍目标 - 将数据写入销售队伍。新浪潮分析目的地。将数据写入 Salesforce 波浪分析。目标使用外部数据创建数据集。
- 亚马逊 S3 目标更改 - AWS KMS 密钥 ID 属性已重命名为 AWS KMS 密钥 ARN。数据收集器可无缝升级现有管道。
- 文件后缀增强功能。您现在可以为由 Hadoop FS、本地 FS、MapR FS 和 Amazon S3 目标生成的输出文件配置文件后缀(如 txt 或 json)。
- JDBC 创建器目标增强功能 - 您现在可以配置 JDBC 创建器目标用于连接到数据库的事务隔离级别。以前,目标使用为数据库配置的默认事务隔离级别。
- Kudu 目标增强功能 - 您现在可以将目标配置为执行以下写入操作之一:插入、更新、删除或更新插入。
数据格式
- XML 处理增强功能 - 现在,您可以使用简化的 XPath 表达式从 XML 文档生成记录,这些表达式具有处理 XML 数据的源和 XML 分析器处理器。这样就可以从 XML 文档中的更深层次读取记录。
- 合并的数据格式属性 - 现在,您可以在新的“数据格式”选项卡上配置数据格式和相关属性。以前,数据格式具有单独的配置选项卡,例如,Avro,分隔,日志。
相关属性(如“字符集”、“压缩格式”和“忽略控制字符”)现在也会显示在“数据格式”选项卡上。
- 生成整个文件的校验和 - 流式传输整个文件的目标现在可以为文件生成校验和,以便您可以确认文件的准确传输。
管道维护
- 从主页向管道添加标签 - 现在可以从数据收集器主页向多个管道添加标签。使用标签对类似管道进行分组。例如,您可能希望按数据库架构或测试或生产环境对管道进行分组。
- 从主页重置多个管道的源 - 现在可以从数据收集器主页同时重置多个管道的源。
规则和警报
- 指标规则和警报增强功能 - 仪表指标类型现在可以根据上次处理的批次的输入、输出或错误记录数提供警报。
表达式语言函数
- 新文件函数 - 可以使用以下新文件函数来处理文件路径:
- 文件:文件扩展(<文件路径>) - 从路径返回文件扩展名。
- 文件:文件名(<文件路径>) - 从路径返回文件名。
- 文件:父路径(<文件路径>) - 返回指定文件或目录的父路径。
- 文件:路径元素(<文件路径>, <整数>) - 返回文件路径中由正整数或负整数指定的部分。
- 文件:删除扩展(<文件路径>) - 从路径中删除文件扩展名。
- 新管道函数 - 可以使用以下新管道函数来确定有关管道的信息:
- 管道:名称() - 返回管道名称。
- 管道:版本() - 在管道发布到数据流性能管理器 (DPM) 时返回管道版本。
- 新的时间函数 - 可以使用以下新的时间函数来转换日期时间数据:
- 时间:提取长从日期(<日期对象>,<字符串>) - 根据指定的日期格式从 Date 对象中提取长整型值。
- 时间:提取字符串从日期(<日期对象>,<字符串>) - 根据指定的日期格式从 Date 对象中提取字符串值。
- 时间:毫秒到日期时间(<长>) - 将纪元或 UNIX 时间(以毫秒为单位)转换为日期对象。