基于Hql的表级数据血缘

最新推荐文章于 2025-06-24 09:49:38 发布

登徒梦

最新推荐文章于 2025-06-24 09:49:38 发布

阅读量1.7k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：大数据文章标签： hive 数据血缘大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/haiboself/article/details/97617108

本文介绍了基于Hql的表级数据血缘，涉及预备知识、数据血缘的概念以及两种关键操作：Create Table As Select (CTAS)和Inserting data into Hive Tables from queries。通过分析Hive的AST抽象语法树，可以抽取源表和目标表的对应关系，实现血缘关系的确定。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

预备知识

表级数据血缘：数据表的派生关系。
Hql: hive sql
通过hive的hql parser在AST(抽象语法树)层级操作
如果需要做字段血缘,在AST级别是可以完成的,不过需要熟悉大量的hql语法规则和其在ast中的实际表示。
耳闻hive的ast并不好,也许是积重难返吧,新语法规则的引入必然要和旧的规则做妥协。可以换用spark sql的parser或者presto的parser。

参考

数据血缘

分析过程：
- 查看hql的官方文档,结合应用实例,分析确定存在血缘关系的hql有2种:
  - Create Table As Select (CTAS)
  - Inserting data into Hive Tables from queries
- 了解基本的AST结构,分析上边2种hql的AST结构,从中抽取原表和目标表的对应关系。
hql获取：一种方式是通过hive hook的方式从hive server端获取。
结论：搞

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。