随着数字化转型深度推进,企业产生的数据量呈现出爆发式增长,数据之间的关系也变得越发复杂,导致数据溯源以及数据模型修改后业务分析困难。本文中的用户是一家以金融投资管理软件服务为核心,专注于金融资管业务和数据治理的金融科技公司。用户通过集成SQLFlow数据血缘分析,助力企业完善数据治理能力,发挥出数据价值。
本文重点介绍用户集成SQLFlow数据血缘分析的方法及其产生的产品价值。
用户需要将数据血缘分析能力集成在其“数据资产管理系统”内,并分发给其用户使用。所以用户采用了GSP(数据血缘分析SDK)+ SQLFLow Ingester(数据摄取)+ Widget(数据血缘展示)组合的方式完成了系统集成。集成方法如下图所示:
用户“数据资产管理系统”通过集成SQLFlow产品,实现了数据摄取、数据血缘分析、数据血缘合并和数据血缘可视化功能。
1、数据摄取
数据摄取是将要分析血缘的SQL从数据库及sql脚本文件中提取出来,为数据血缘分析做数据准备。
利用sqlflow-ingester的SDK可完成数据摄取,本案例用到了sqlflow-exporter、sqlflow-extractor2个SDK。
sqlflow-exporter:可连接数据库,提取数据库的元数据、DDL(View、存储过程、自定义函数、触发器、Package等)以及HistoryLog。
sqlflow-extractor:负责处理输入的原始数据文件,例如 log 文件,各种脚本文件(从中抽取需要被处理的SQL语句及元数据),包含SQL语句的CSV文件等,把这类文件统一转换为 SQLFlow 可以处理的 SQL 文件。
用户集成sqlflow-ingester实现了数据资产管理中的元数据发现功能,支持对SQL语句、存储过程、ETL脚本等文件进行自动化采集分析。目前具备了oracle、hive、mysql、greenplum、im