读书笔记3

数据治理涉及组织对数据的可用性、完整性和安全性的管理。它的重要性体现在数据应用的价值,但面临多业务系统整合、数据采集技术、用户隐私安全、组织架构配合和业务迭代的挑战。数据治理是一个动态过程,涉及数据使用者和生产者的协作。应对策略包括从应用倒推确定治理方案,通过确定需求、映射数据模型、选择采集技术、数据集成和校验来实施。

一、什么是数据治理

1.数据治理的本质

数据治理的本质是组织对数据的可用性、完整性和安全性的整体管理。

可用性指数据可用、可信且有质量保证,不会因为分析结果的准确性造成偏差,从业者可以放心地根据数据结果做业务决策;完整性分为两个方面,一方面指数据需覆盖各类数据应用的需要,另一方面指不会因为数据治理没有到位而造成数据资产的流失,也即影响数据资产的积累;安全性指治理和分享过程需安全可控,不侵犯用户隐私,且不会给组织留下安全隐患。

2.数据治理的重要性

数据治理是所有数据应用的根基,数据治理的好坏直接影响所有数据应用的价值。

无论是基于数据看报表,还是做交互式的多维分析,还是做更复杂的个性化推荐,所有的数据应用都需要有一个良好的数据治理结果。

数据治理是组织数据资产沉淀的基础,数据治理的好坏直接决定了组织的数据资产能否得到沉淀,能否充分地发挥价值。

在经费条件允许的情况下,可以将企业的所有数据整合在一起,通过良好的权限管控,充分的共享,聚合所有的业务部门一起去探索数据的应用,因为数据中台本身就承载着组织内部所有数据的整合分享角色。

二、数据治理面临的挑战

问题主要分为两类:一类因“技术”而起,一类因“人”而起。

1.多业务系统多数据源的整合挑战

企业想要做的数据应用越多,所需的数据就会越多,所要去获取的数据源也会增多,而相应的数据处理也会越多,这是一个极为显而易见的问题。

2.数据采集技术上的挑战

近年来,许多公司都在尝试将自己的业务线上化,都需要通过数据对用户进行分析与运营,如何精准采集可用的用户数据以及其他相关数据,都将是数据采集在技术层面上面临的挑战。

3.用户隐私与安全挑战

用户隐私与安全不仅是对技术挑战,更多的是一种意识上的挑战。企业需要准确把控数据采集的红线,比如针对欧盟范围内的国际业务,就需要参考 GDPR 的相关规范。

在国内,很多银行券商等企业也同样拥有一套完善的数据合规要求,甚至已经细化到“某个特定字段对于某一个特定人可看但不可下载”的程度,这些都是需要在进行数据治理时考虑的因素。另外,如果需要在公网传输交换数据,也同样需要思考数据如何防止窃取和伪造的问题

4.组织架构与部门隔阂带来的配合

部分组织在数据治理的过程中速度过慢,成效不好,其中一个很重要的原因是权责、部门配合等方面存在问题。很多情况下,生产数据、使用数据、分析数据的工作人员分布在不同的职能线与部门,角色不同,立场也不同,这些客观存在的影响因素都会影响整个数据治理的最终结果。

5.业务持续迭代中带来的挑战

在互联网行业中,尤其是业务迭代较为迅速的团队里,通常存在“1.0 版本的数据质量最优,1.1 版本不行,2.0 版本完全不可用”的说法,说明第一次做数据治理时,极重视数据质量,会有完善的流程来保证埋点的准确性,本身也没有太多的包袱;而在后续的产品迭代中,如果流程和标准的迭代相对滞后,整个数据治理的结果也会随着受影响,最终导致整个数据质量低劣,直至所谓的“完全不可用”。

三、数据治理与组织架构

上述内容已经提到关于组织架构的内容,因其重要性将在本部分单独说明。

1.数据治理是一个动态的过程

数据治理实际反映的是组织问题、文化问题,这也是许多公司为了明确权责划分而建立数据治理委员会的原因。同时,还需要明确的程序与执行程序的计划,明确的程序指对数据进行治理所需经历的阶段、问题有明细的了解,执行程序的计划指每一步需要解决哪些问题。当公司的主流业务发生变化时,组织架构会随之改变,接而带来数据治理层面的变更,所以,数据治理是一个动态的过程,伴随整个业务变更与组织架构变更。

2.数据治理中的两个核心角色

第一,数据使用者,通常集中在产品经理、数据分析师、营销经理、运营经理等岗位,有查看报表、数据分析、用户画像、用户运营等需求,他们属于数据治理的受益者。

第二,数据生产者,通常集中在前端开发、后端开发、数据工程师、ETL 工程师,有埋点、打日志、做数据 ETL 的需求,他们属于数据治理的付出者,可能看不到直接收益,反而增加工作负担。

四、数据治理中的应对

首先,数据治理的核心认识是,数据治理是一个持续并且长久的一个过程,不同的产品可以解决比如采集、传输等数据治理层面上的不同问题,但并不存在一款所谓的“数据治理产品”,可以用来解决所有问题。

其次,数据治理的整体方法论是“从应用倒推”。先确定数据应用、数据资产的需求,接着确定需要哪些数据,之后确定需要从哪种数据源获取数据,最终确定具体的数据治理方案。

第一步,确定分析需求。通过了解数据使用者需要看哪些指标、用在哪些场景、使用哪些分析模型等方面来了解具体的数据使用需求,完成需求梳理。

第二步,映射数据模型。在该步骤需确定采集的事件和属性,并完成事件设计。

第三步,确定数据采集技术方案。根据要采的事件和属性,结合现有实际业务系统,去确定到底要从何种系统里以何种技术方案采集数据。

第四步,数据采集与集成。这一步就是指具体的开发、集成工作,包括完成相应的 SDK 集成、数据采集工具的开发、数据 ETL 开发等。

第五步,数据校验和上线。这一步中需要使用必要的测试工具、利用埋点管理平台做数据对比等。

以上来自神策数据《数据治理中的一些挑战与应用》

内容概要:本文介绍了一种基于蒙特卡洛模拟和拉格朗日优化方法的电动汽车充电站有序充电调度策略,重点针对分时电价机制下的分散式优化问题。通过Matlab代码实现,构建了考虑用户充电需求、电网负荷平衡及电价波动的数学模【电动汽车充电站有序充电调度的分散式优化】基于蒙特卡诺和拉格朗日的电动汽车优化调度(分时电价调度)(Matlab代码实现)型,采用拉格朗日乘子法处理约束条件,结合蒙特卡洛方法模拟大量电动汽车的随机充电行为,实现对充电功率和时间的优化分配,旨在降低用户充电成本、平抑电网峰谷差并提升充电站运营效率。该方法体现了智能优化算法在电力系统调度中的实际应用价值。; 适合人群:具备一定电力系统基础知识和Matlab编程能力的研究生、科研人员及从事新能源汽车、智能电网相关领域的工程技术人员。; 使用场景及目标:①研究电动汽车有序充电调度策略的设计与仿真;②学习蒙特卡洛模拟与拉格朗日优化在能源系统中的联合应用;③掌握基于分时电价的需求响应优化建模方法;④为微电网、充电站运营管理提供技术支持和决策参考。; 阅读建议:建议读者结合Matlab代码深入理解算法实现细节,重点关注目标函数构建、约束条件处理及优化求解过程,可尝试调整参数设置以观察不同场景下的调度效果,进一步拓展至多目标优化或多类型负荷协调调度的研究。
内容概要:本文围绕面向制造业的鲁棒机器学习集成计算流程展开研究,提出了一套基于Python实现的综合性计算框架,旨在应对制造过程中数据不确定性、噪声干扰面向制造业的鲁棒机器学习集成计算流程研究(Python代码实现)及模型泛化能力不足等问题。该流程集成了数据预处理、特征工程、异常检测、模型训练与优化、鲁棒性增强及结果可视化等关键环节,结合集成学习方法提升预测精度与稳定性,适用于质量控制、设备故障预警、工艺参数优化等典型制造场景。文中通过实际案例验证了所提方法在提升模型鲁棒性和预测性能方面的有效性。; 适合人群:具备Python编程基础和机器学习基础知识,从事智能制造、工业数据分析及相关领域研究的研发人员与工程技术人员,尤其适合工作1-3年希望将机器学习应用于实际制造系统的开发者。; 使用场景及目标:①在制造环境中构建抗干扰能力强、稳定性高的预测模型;②实现对生产过程中的关键指标(如产品质量、设备状态)进行精准监控与预测;③提升传统制造系统向智能化转型过程中的数据驱动决策能力。; 阅读建议:建议读者结合文中提供的Python代码实例,逐步复现整个计算流程,并针对自身业务场景进行数据适配与模型调优,重点关注鲁棒性设计与集成策略的应用,以充分发挥该框架在复杂工业环境下的优势。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值