一、什么是数据治理
1.数据治理的本质
数据治理的本质是组织对数据的可用性、完整性和安全性的整体管理。
可用性指数据可用、可信且有质量保证,不会因为分析结果的准确性造成偏差,从业者可以放心地根据数据结果做业务决策;完整性分为两个方面,一方面指数据需覆盖各类数据应用的需要,另一方面指不会因为数据治理没有到位而造成数据资产的流失,也即影响数据资产的积累;安全性指治理和分享过程需安全可控,不侵犯用户隐私,且不会给组织留下安全隐患。
2.数据治理的重要性
数据治理是所有数据应用的根基,数据治理的好坏直接影响所有数据应用的价值。
无论是基于数据看报表,还是做交互式的多维分析,还是做更复杂的个性化推荐,所有的数据应用都需要有一个良好的数据治理结果。
数据治理是组织数据资产沉淀的基础,数据治理的好坏直接决定了组织的数据资产能否得到沉淀,能否充分地发挥价值。
在经费条件允许的情况下,可以将企业的所有数据整合在一起,通过良好的权限管控,充分的共享,聚合所有的业务部门一起去探索数据的应用,因为数据中台本身就承载着组织内部所有数据的整合分享角色。
二、数据治理面临的挑战
问题主要分为两类:一类因“技术”而起,一类因“人”而起。
1.多业务系统多数据源的整合挑战
企业想要做的数据应用越多,所需的数据就会越多,所要去获取的数据源也会增多,而相应的数据处理也会越多,这是一个极为显而易见的问题。
2.数据采集技术上的挑战
近年来,许多公司都在尝试将自己的业务线上化,都需要通过数据对用户进行分析与运营,如何精准采集可用的用户数据以及其他相关数据,都将是数据采集在技术层面上面临的挑战。
3.用户隐私与安全挑战
用户隐私与安全不仅是对技术挑战,更多的是一种意识上的挑战。企业需要准确把控数据采集的红线,比如针对欧盟范围内的国际业务,就需要参考 GDPR 的相关规范。
在国内,很多银行券商等企业也同样拥有一套完善的数据合规要求,甚至已经细化到“某个特定字段对于某一个特定人可看但不可下载”的程度,这些都是需要在进行数据治理时考虑的因素。另外,如果需要在公网传输交换数据,也同样需要思考数据如何防止窃取和伪造的问题
4.组织架构与部门隔阂带来的配合
部分组织在数据治理的过程中速度过慢,成效不好,其中一个很重要的原因是权责、部门配合等方面存在问题。很多情况下,生产数据、使用数据、分析数据的工作人员分布在不同的职能线与部门,角色不同,立场也不同,这些客观存在的影响因素都会影响整个数据治理的最终结果。
5.业务持续迭代中带来的挑战
在互联网行业中,尤其是业务迭代较为迅速的团队里,通常存在“1.0 版本的数据质量最优,1.1 版本不行,2.0 版本完全不可用”的说法,说明第一次做数据治理时,极重视数据质量,会有完善的流程来保证埋点的准确性,本身也没有太多的包袱;而在后续的产品迭代中,如果流程和标准的迭代相对滞后,整个数据治理的结果也会随着受影响,最终导致整个数据质量低劣,直至所谓的“完全不可用”。
三、数据治理与组织架构
上述内容已经提到关于组织架构的内容,因其重要性将在本部分单独说明。
1.数据治理是一个动态的过程
数据治理实际反映的是组织问题、文化问题,这也是许多公司为了明确权责划分而建立数据治理委员会的原因。同时,还需要明确的程序与执行程序的计划,明确的程序指对数据进行治理所需经历的阶段、问题有明细的了解,执行程序的计划指每一步需要解决哪些问题。当公司的主流业务发生变化时,组织架构会随之改变,接而带来数据治理层面的变更,所以,数据治理是一个动态的过程,伴随整个业务变更与组织架构变更。
2.数据治理中的两个核心角色
第一,数据使用者,通常集中在产品经理、数据分析师、营销经理、运营经理等岗位,有查看报表、数据分析、用户画像、用户运营等需求,他们属于数据治理的受益者。
第二,数据生产者,通常集中在前端开发、后端开发、数据工程师、ETL 工程师,有埋点、打日志、做数据 ETL 的需求,他们属于数据治理的付出者,可能看不到直接收益,反而增加工作负担。
四、数据治理中的应对
首先,数据治理的核心认识是,数据治理是一个持续并且长久的一个过程,不同的产品可以解决比如采集、传输等数据治理层面上的不同问题,但并不存在一款所谓的“数据治理产品”,可以用来解决所有问题。
其次,数据治理的整体方法论是“从应用倒推”。先确定数据应用、数据资产的需求,接着确定需要哪些数据,之后确定需要从哪种数据源获取数据,最终确定具体的数据治理方案。
第一步,确定分析需求。通过了解数据使用者需要看哪些指标、用在哪些场景、使用哪些分析模型等方面来了解具体的数据使用需求,完成需求梳理。
第二步,映射数据模型。在该步骤需确定采集的事件和属性,并完成事件设计。
第三步,确定数据采集技术方案。根据要采的事件和属性,结合现有实际业务系统,去确定到底要从何种系统里以何种技术方案采集数据。
第四步,数据采集与集成。这一步就是指具体的开发、集成工作,包括完成相应的 SDK 集成、数据采集工具的开发、数据 ETL 开发等。
第五步,数据校验和上线。这一步中需要使用必要的测试工具、利用埋点管理平台做数据对比等。
以上来自神策数据《数据治理中的一些挑战与应用》