- 博客(8)
- 收藏
- 关注
原创 v.sqlflow.cn 上线试用
2023年8月和9月注册的用户可免费获得价值 3000 元的一年高级帐户,可以使用马哈鱼数据血缘工具全部付费功能。马哈鱼数据血缘工具从2023年8月开始开通国内云版本的服务,相比国外版本,访问速度有很大的提升,访问域名为。
2023-07-30 15:36:56
154
1
原创 马哈鱼数据血缘分析工具
马哈鱼数据血缘分析工具(英文名称为 Gudu SQLFlow )是一款用于分析 SQL 语句,并发现其中数据血缘关系的分析软件,经常和元数据管理工具一起使用,是企业数据治理的基础工具。如果你对 SQL 语言不熟悉,那么本文可能不适合你阅读。阅读本文无需事先有数据血缘相关的知识,只要把数据血缘关系简单的理解为数据库中两个或多个表之间的数据依赖关系即可。我们通过分析下面的 SQL 语句,来看看如何梳理出各个表/视图间的数据依赖关系。通过分析以上 INSERT SQL 语句,我们可以知道。
2022-08-24 21:36:34
1031
原创 如何在5分钟内发现 SQL 语言中的数据血缘
为了快速相应业务部门的分析需求,数仓或数据湖中的数据和结构必须能够进行快速的调整和重构,增加新的数据源、移除不用的老数据,在数仓数据的快速调整迭代过程中,需要有可靠的元数据管理工具、数据血缘分析工具来为数据质量和数据安全保驾护航,分析数仓中数量众多的SQL代码,快速获得血缘关系,无疑具有重要的价值。数据仓库和数据湖中处理数据用的最多的工具就是SQL语言,无论是数据加载、数据转换、还是数据清洗,都会用到SQL查询语言,更不用说数据查询和分析了。由此,在源数据表和目标表间会建立数据血缘关系。...
2022-07-27 19:20:02
738
原创 数据治理中Oracle SQL和存储过程的数据血缘分析
数据治理中的一个重要基础工作是分析组织中数据的血缘关系。有了完整的数据血缘关系,我们可以用它进行数据溯源、表和字段变更的影响分析、数据合规性的证明、数据质量的检查等。分析数据血缘的方法主要分为四类自动解析 系统跟踪 机器学习 人工收集自动解析主要是利用工具解析 SQL 语句、存储过程和 ETL等文件。 本文以 Oracle 为例,来说明如何分析 SQL 和存储过程中的数据血缘。产生数据血缘的 SQL 语句SELECT INSERT UPDATE MERGE CREATE VI
2021-09-14 21:29:41
1075
1
原创 利用元数据提高数据血缘分析的准确性
一、马哈鱼: 数据治理专家的一把利器数据血缘属于数据治理中的一个概念,是在数据溯源的过程中找到相关数据之间的联系,它是一个逻辑概念。数据治理里经常提到的一个词就是血缘分析,血缘分析是保证数据融合的一个手段,通过血缘分析实现数据融合处理的可追溯。大数据治理分析师常常需要对各种复杂场景下的SQL语句进行溯源分析,而限于环境因素,往往只能提供SQL语句给马哈鱼进行分析处理,SQL语句的制造者往往为了简便行事,会产生一些数据库可执行但马哈鱼无法正确识别的一类语句,本文聚焦此处,为各位专家介绍马哈鱼官方对这类问题
2021-09-04 22:00:41
619
原创 SQLFlow 数据血缘分析 工具 注册教程
一、SQLFlow是什么随着大数据技术的发展与普及,数据治理和数据质量变得越来越重要,数据血缘分析在业界悄然兴起并得到了广泛流行,今天推荐一款专业且易用的数据血缘分析工具--SQLFlow。据资料显示,SQLFlow是当前最流行的数据血缘关系(data lineage)分析工具,它在全球IT界范围内广泛的流行着,被众多头部元数据管理商使用,支持超过20个主流数据库。万丈高楼平地起,今天我们从 SQLFlow 新用户申请开始,在后续的技术分享中,我将带大家系统深入了解 SQLFlow 的操作,希望在未
2021-08-31 22:24:49
1490
原创 SQLFlow:使用sqlparser解析血缘关系
在SQLFlow:在线解析SQL血缘关系(SQL Data Lineage)文章中,介绍了SQLFlow的基本使用。经过研究发现,SQLFlow是基于SQL Parser实现的,具体可以看这个demo:https://github.com/sqlparser/gsp_demo_java/tree/master/src/main/java/demos/dlineage下面我们尝试使用代码的方式,来解析血缘关系,看三个简单的例子:从select语句中直接解析血缘关系-- case 1 : my
2021-06-05 16:23:08
9855
12
原创 SQLFlow:在线解析SQL血缘关系(SQL Data Lineage)
网站:SQLFlow什么是血缘关系当你在数据库里执行一段SQL代码后,数据库会返回给你一个结果集(record set,简称RS),结果集中的每一列可能来源于不同的表,这些不同的表又依赖别的表,中间可能经过了函数、聚合等计算。源表与结果集关系,就是血缘关系。例如,有这样的SQL语句,从源表user和order中,查询了一个用户所有订单金额的RS:-- mysqlSELECT `user`.name, `order`.priceFROM `user`, `
2021-05-09 11:22:29
3824
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人