HIVE数仓数据血缘分析工具-SQL解析

一、数仓经常会碰到的几类问题:
1、两个数据报表进行对比,结果差异很大,需要人工核对分析指标的维度信息,比如从头分析数据指标从哪里来,处理条件是什么,最后才能分析出问题原因。
2、基础数据表因某种原因需要修改字段,需要评估其对数仓的影响,费时费力,然后在做方案。

二、问题分析:
数据源长途跋涉,经过大量的处理和组件来传递,呈现在业务用户面前,对数据进行回溯其实很难。元数据回溯在有效决策、策略制定、差异分析等过程中很重要。这两类问题都属于数据血缘分析问题,第一类叫做数据回溯、第二类叫做影响分析,是数据回溯的逆向。

三、解决方法:
自己实现了一套基于hive数仓的数据血缘分析工具,来完成各个数据表、字段之间的关系梳理,进而解决上面两个问题。

  • 工具主要目标:解析计算脚本中的HQL语句,分析得到输入输出表、输入输出字段和相应的处理条件,进行分析展现。
  • 实现思路:对AST深度优先遍历,遇到操作的token则判断当前的操作,遇到子句则压栈当前处理,处理子句。子句处理完,栈弹出。处理字句的过程中,遇到子查询就保存当前子查询的信息,判断与其父查询的关系,最终形成树形结构; 遇到字段或者条件处理则记录当前的字段和条件信息、组成Block,嵌套调用。
  • 关键点解析:
    1、遇到TOK_TAB或TOK_TABREF则判断出当前操作的表
    2、压栈判断是否是join,判断join条件
    3、定义数据结构Block,遇到在where\select\join时获得其下相应的字段和条件,组成Block
    4、定义数据结构ColLine,遇到TOK_SUBQUERY保存当前的子查询信息,供父查询使用
    5、定义数据结构ColLine,遇到TOK_UNION结束时,合并并截断当前的列信息
    6、遇到select 或者未明确指出的字段,查询元数据进行辅助分析
    7、解析结果进行相关校验

代码地址:http://download.youkuaiyun.com/detail/thomas0yang/9354943
https://download.youkuaiyun.com/download/thomas0yang/9369949
懒得改成github了☺

代码如下:
Block类

package com.xiaoju.products.parse;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.HashSet;
import java.util.List;
import java.util.Map;
import java.util.Set;
import java.util.Stack;
import java.util.Map.Entry;
import java.util.LinkedHashSet;

import org.antlr.runtime.tree.Tree;
import org.apache.hadoop.hive.ql.parse.ASTNode;
import org.apache.hadoop.hive.ql.parse.BaseSemanticAnalyzer;
import org.apache.hadoop.hive.ql.parse.HiveParser;
import org.apache.hadoop.hive.ql.parse.ParseDriver;

import com.xiaoju.products.bean.Block;
import com.xiaoju.products.bean.ColLine;
import com.xiaoju.products.bean.QueryTree;
import com.xiaoju.products.exception.SQLParseException;
import com.xiaoju.products.exception.UnSupportedException;
import com.xiaoju.products.util.Check;
import com.xiaoju.products.util.MetaCache;
import com.xiaoju.products.util.NumberUtil;
import com.xiaoju.products.util.ParseUtil;
import com.xiaoju.products.util.PropertyFileUtil;

/**
 * hive sql解析类
 * 
 * 目的:实现HQL的语句解析,分析出输入输出表、字段和相应的处理条件。为字段级别的数据血缘提供基础。
 * 重点:获取SELECT操作中的表和列的相关操作。其他操作这判断到字段级别。
 * 实现思路:对AST深度优先遍历,遇到操作的token则判断当前的操作,遇到子句则压栈当前处理,处理子句。子句处理完,栈弹出。
 * 处理字句的过程中,遇到子查询就保存当前子查询的信息,判断与其父查询的关系,最终形成树形结构;
 * 遇到字段或者条件处理则记录当前的字段和条件信息、组成Block,嵌套调用。 
 * 关键点解析 
 * 		   1、遇到TOK_TAB或TOK_TABREF则判断出当前操作的表
 *         2、压栈判断是否是join,判断join条件
 *         3、定义数据结构Block,遇到在where\select\join时获得其下相应的字段和条件,组成Block
 *         4、定义数据结构ColLine,遇到TOK_SUBQUERY保存当前的子查询信息,供父查询使用
 *         5、定义数据结构ColLine,遇到TOK_UNION结束时,合并并截断当前的列信息
 *         6、遇到select * 或者未明确指出的字段,查询元数据进行辅助分析
 *         7、解析结果进行相关校验
 * 试用范围:
 * 1、支持标准SQL 
 * 2、不支持transform using script
 *        
 * @author yangyangthomas     
 *    
 */
public class LineParser {
	
	private static final String SPLIT_DOT = ".";
	private static final String SPLIT_COMMA = ",";
	private static final String SPLIT_AND = "&";
	private static final String TOK_EOF = "<EOF>";
	private static final String CON_WHERE = "WHERE:";
	private static final String TOK_TMP_FILE = "TOK_TMP_FILE";
	
    private Map<String /*table*/, List<String/*column*/>> dbMap = new HashMap<String, List<String>>();
    private List<QueryTree> queryTreeList = new ArrayList<QueryTree>(); //子查询树形关系保存
    
    private Stack<Set<String>> conditionsStack = new Stack<Set<String>>();
    private Stack<List<ColLine>> colsStack = new Stack<List<ColLine>>();
    
    private Map<String, List<ColLine>> resultQueryMap = new HashMap<String,  List<ColLine>>();
	private Set<String> conditions = new HashSet<String>(); //where or join 条件缓存
	private List<ColLine> cols = new ArrayList<ColLine>(); //一个子查询内的列缓存
	
	private Stack<String> tableNameStack = new Stack<String>();
    private Stack<Boolean> joinStack = new Stack<Boolean>();
    private Stack<ASTNode> joinOnStack = new Stack<ASTNode>();
    
    private Map<String, QueryTree> queryMap = new HashMap<String, QueryTree>();
    private boolean joinClause = false;
    private ASTNode joinOn = null;
    private String nowQueryDB = "default"; //hive的默认库
    private boolean isCreateTable = false;
    
    //结果
    private List<ColLine> colLines = new ArrayList<ColLine>();  
    private Set<String> outputTables = new HashSet<String>();
    private Set<String> inputTables = new HashSet<String>();
    
    private List<ColLine> tmpColLines = new ArrayList<ColLine>();  
    private Set<String> tmpOutputTables = new HashSet<String>();
    private Set<String> tmpInputTables = new HashSet<String>();
    
    public List<ColLine> getColLines() {
 		return colLines;
 	}
    public Set<String> getOutputTables() {
		return outputTables;
	}
	public Set<String> getInputTables() {
		return inputTables;
	}

    private void parseIteral(ASTNode ast) {
        prepareToParseCurrentNodeAndChilds(ast);
        parseChildNodes(ast);
        parseCurrentNode(ast);
        endParseCurrentNode(ast);
    }

    /**
     * 解析当前节点
     * @param ast
     * @param set
     * @return
     */
    private void parseCurrentNode(ASTNode ast){
        if (ast.getToken() != null) {
            switch (ast.getToken().getType()) {
		    case HiveParser.TOK_CREATETABLE: //outputtable
		    	isCreateTable = true;
		    	String tableOut = fillDB(BaseSemanticAnalyzer.getUnescapedName((ASTNode) ast.getChild(0)));
		    	tmpOutputTables.add(tableOut);
		    	MetaCache.getInstance().init(tableOut); //初始化数据,供以后使用
		    	break;
            case HiveParser.TOK_TAB:// outputTable
                String tableTab = BaseSemanticAnalyzer.getUnescapedName((ASTNode) ast.getChild(0));
                String tableOut2 = fillDB(tableTab);
                tmpOutputTables.add(tableOut2);
                MetaCache.getInstance().init(tableOut2); //初始化数据,供以后使用
                break;
            case HiveParser.TOK_TABREF:// inputTable
                ASTNode tabTree = (ASTNode) ast.getChild(0);
                String tableInFull = fillDB((tabTree.getChildCount() == 1) ?  
                		BaseSemanticAnalyzer.getUnescapedName((ASTNode) tabTree.getChild(0))
                		: BaseSemanticAnalyzer.getUnescapedName((ASTNode) tabTree.getChild(0))
                        + SPLIT_DOT + BaseSemanticAnalyzer.getUnescapedName((ASTNode) tabTree.getChild(1))
                		);
                String tableIn = tableInFull.substring(tableInFull.indexOf(SPLIT_DOT) + 1);	
                tmpInputTables.add(tableInFull);
                MetaCache.getInstance().init(tableInFull); //初始化数据,供以后使用
                queryMap.clear();
                String alia = null;
                if (ast.getChild(1) != null) { //(TOK_TABREF (TOK_TABNAME detail usersequence_client) c) 
                    alia = ast.getChild(1).getText().toLowerCase();
                    QueryTree qt = new QueryTree();
                    qt.setCurrent(alia);
                    qt.getTableSet().add(tableInFull);
                    QueryTree pTree = getSubQueryParent(ast);
                    qt.setpId(pTree.getpId());
                    qt.setParent(pTree.getParent());
                    queryTreeList.add(qt);
                    if (joinClause && ast.getParent() == joinOn) { // TOK_SUBQUERY join TOK_TABREF ,此处的TOK_SUBQUERY信息不应该清楚
                        for (QueryTree entry : queryTreeList) { //当前的查询范围
    						if (qt.getParent().equals(entry.getParent())) {
    							queryMap.put(entry.getCurrent(), entry);
    					
<think>嗯,用户让我介绍一下工程师,并且整理一份关于据治理的文档。首先,我需要明确用户的需求是什么。用户可能对数据仓库据治理不太熟悉,或者他们需要为团队准备相关的文档。用户可能是刚入行的据工程师,或者项目经理,想要了解如何实施据治理。 首先,我应该解释工程师的职责和技能,这部分需要简明扼要,涵盖主要工作内容和所需技术。然后,据治理的文档需要结构清晰,包含定义、目标、框架、实施步骤、工具和挑战等内容。用户可能需要这份文档来指导他们的据治理项目,所以内容需要实用,步骤明确。 接下来,我需要确保信息准确。比如,据治理的核心模块通常包括据质量管理、元数据管理、据安全等。实施步骤是否合理?可能需要分阶段,从现状评估到持续优化。还要考虑常见挑战,比如跨部门协作和据合规性,这些都是实际中容易遇到的问题。 另外,用户可能希望文档有实际的操作建议,比如工具推荐和最佳实践。是否需要分点列出,方便他们参考?比如在工具部分提到Apache Atlas、Collibra等,这样用户可以根据需要选择。 还要注意使用中文,避免使用专业术语时没有解释。比如“元数据”可能需要简单说明。同时,按照用户要求,学公式用$...$格式,但在这个问题中可能用不上,但需要留意是否有相关学内容。 最后,检查结构是否清晰,分章节是否合理,是否有遗漏的部分。比如据治理框架是否涵盖了组织架构、制度流程、技术工具和评价体系。实施步骤是否从准备到落地再到优化,逻辑是否连贯。 总结一下,我需要先定义工程师,然后详细展开据治理的各个方面,确保内容全面且易于理解,结构清晰,步骤明确,并给出实用建议和工具推荐,帮助用户实际应用。</think>以下为整理内容,分为两大部分:工程师岗位介绍、据治理文档框架及核心内容 --- # **I. 工程师岗位解析** ## 1. 岗位定义 数据仓库工程师(Data Warehouse Engineer)专注于构建、维护和优化企业级数据仓库,负责将分散的业务据整合为统一、标准化的分析资源。 ## 2. 核心职责 - **架构设计**:搭建$EDW$(企业数据仓库)、$ODS$(操作据存储)、据集市分层体系 - **ETL开发**:通过$SQL$、$Python$等实现据抽取、清洗、转换、加载 - **维度建模**:设计星型/雪花模型,定义事实表、维度表及缓慢变化维度处理策略 - **性能优化**:解决$SQL$查询效率、分区策略、索引优化等问题 - **协作对接**:与业务分析师、据科学家协作提供高质量据服务 ## 3. 技能图谱 | 技术栈 | 工具示例 | |-----------------|-----------------------------------| | 据库 | Hive/Spark SQL, PostgreSQL, Redshift | | ETL工具 | Airflow, Informatica, Kettle | | 据建模 | ERWin, PowerDesigner | | 编程语言 | SQL(必备), Python/Scala | | 云平台 | AWS/Azure/GCP 据服务 | --- # **II. 据治理文档框架** ## 1. 治理目标 - 保障据**准确性**、**一致性**、**安全性** - 建立数据血缘追踪能力,满足审计要求(如$GDPR$合规) - 提升据资产利用率,降低决策风险 ## 2. 核心框架 ```mermaid graph TD A[据治理] --> B[组织架构] A --> C[制度流程] A --> D[技术工具] A --> E[评价体系] ``` ## 3. 关键模块详解 ### 3.1 据质量管理 - **实施步骤**: 1. 定义据质量指标(完整性$\geq 99\%$, 及时性$\leq 1h$延迟) 2. 部署校验规则(如身份证号Luhn算法验证) 3. 建立闭环处理机制(异常据工单系统) ### 3.2 元数据管理 - **管理对象**: - 技术元数据:表结构$\text{Schema}$、ETL任务依赖关系 - 业务元数据:指标口径$\text{MAU=...}$、据责任人 ### 3.3 据安全控制 - **实施策略**: - 据分级(机密/内部/公开) - 动态脱敏(如手机号显示为138****5678) - 权限矩阵(基于RBAC模型) ## 4. 实施路线图 | 阶段 | 周期 | 交付物 | |--------|--------|------------------------------| | 现状评估 | 2-4周 | 据资产清单、痛点分析报告 | | 体系设计 | 4-8周 | 治理框架、标准规范文档 | | 试点运行 | 8-12周 | 元数据系统MVP、质量监控看板 | | 全面推广 | 持续 | 治理成熟度评估报告 | ## 5. 工具推荐 - **开源方案**:Apache Atlas(元数据)、Griffin(质量) - **商业产品**:Collibra Governance, Alation Data Catalog - **云原生服务**:AWS Glue DataBrew, Azure Purview ## 6. 常见挑战 - **组织协同**:需建立跨部门的Data Governance Committee - **成本控制**:初期投入产出比测算(ROI=$\frac{\text{收益}}{\text{成本}}$) - **技术债务**:历史系统改造中的兼容性问题 --- **注**:实际文档需根据企业具体情况补充以下内容: - 据资产分类标准 - 详细操作手册(含SQL代码示例) - 各业务域SLA(Service Level Agreement)指标 - 应急预案(如据泄露响应流程)
评论 52
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值