Spline Spark Agent使用指南

最新推荐文章于 2024-12-09 12:44:57 发布

柳旖岭

最新推荐文章于 2024-12-09 12:44:57 发布

阅读量589

点赞数 5

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00008/article/details/142479351

Spline Spark Agent使用指南

spline-spark-agent Spline agent for Apache Spark 项目地址: https://gitcode.com/gh_mirrors/sp/spline-spark-agent

1. 项目介绍

Spline Spark Agent 是Apache Spark的一个补充模块，由Absa OSS开发并维护，专注于捕捉Spark作业运行时的数据血缘信息。它作为一个Scala库嵌入到Spark驱动程序中，监听Spark事件，并记录逻辑执行计划。采集到的元数据随后被传递给血缘分发器，可以基于选择的分发器类型（如通过REST API或Kafka发送至Spline服务器）或以其他方式处理。该代理既可与Spline服务器一起使用，也可单独使用，适用于不同场景。

2. 快速启动

环境准备

确保你的环境已经配置了Apache Spark以及Scala。本示例将基于Spark 3.0和Scala 2.12版本进行。

安装Spline Agent

你可以通过以下命令添加Spline Spark Agent到你的Spark作业中，这里以Python为例：

pyspark --packages za.co.absa.spline.agent.spark:spark-3.0-spline-agent-bundle_2.12:2.2.0 \
       --conf "spark.sql.queryExecutionListeners=za.co.absa.spline.harvester.listener.SplineQueryExecutionListener" \
       --conf "spark.spline.producer.url=http://localhost:8080/producer"

这段命令告诉Spark在执行SQL查询时使用Spline监听器，并指定了Spline生产者的URL，用于发送捕获的血缘数据。