读数据质量管理:数据可靠性与数据质量问题解决之道20读后总结与感想兼导读

1. 基本信息

数据质量管理:数据可靠性与数据质量问题解决之道

  • [美] 巴尔·摩西,[美] 利奥·加维什,[美] 莫莉· 著

  • 机械工业出版社,2024年5月出版

1.1. 读薄率

书籍总字数18.8万字,笔记总字数61295字。

读薄率61295÷188000≈32.6%

1.2. 读厚方向

  1. Data Mesh权威指南

  2. 数据的边界:隐私与个人数据保护

  3. 数据保护:工作负载的可恢复性

  4. Julia数据科学应用

  5. MLOps权威指南

  6. 数据自助服务实践指南:数据开放与洞察提效

  7. 商战数据挖掘:你需要了解的数据科学与分析思维

  8. Spark快速大数据分析(第2版)

1.3. 笔记--章节对应关系

笔记章节字数发布日期
2024年
读数据质量管理:数据可靠性与数据质量问题解决之道01数据质量第1章 为什么数据质量值得关注311711月12日
读数据质量管理:数据可靠性与数据质量问题解决之道02数据湖仓第2章 对可靠数据系统的构建模块进行组装334511月13日
读数据质量管理:数据可靠性与数据质量问题解决之道03数据目录第2章 对可靠数据系统的构建模块进行组装273411月14日
读数据质量管理:数据可靠性与数据质量问题解决之道04收集与清洗第3章 收集、清洗、转换和测试数据328611月15日
读数据质量管理:数据可靠性与数据质量问题解决之道05数据标准化第3章 收集、清洗、转换和测试数据346211月16日
读数据质量管理:数据可靠性与数据质量问题解决之道06数据测试第3章 收集、清洗、转换和测试数据380211月17日
读数据质量管理:数据可靠性与数据质量问题解决之道07异常检测第4章 数据管道的监控和异常检测220911月18日
读数据质量管理:数据可靠性与数据质量问题解决之道08扩展异常检测第4章 数据管道的监控和异常检测373811月19日
读数据质量管理:数据可靠性与数据质量问题解决之道09数据可靠性第5章 为数据可靠性进行架构设计327211月20日
读数据质量管理:数据可靠性与数据质量问题解决之道10数据平台第5章 为数据可靠性进行架构设计363211月21日
读数据质量管理:数据可靠性与数据质量问题解决之道11根因分析第6章 解决大规模数据质量问题331911月22日
读数据质量管理:数据可靠性与数据质量问题解决之道12应对与缓解第6章 解决大规模数据质量问题266911月23日
读数据质量管理:数据可靠性与数据质量问题解决之道13数据沿袭第7章 构建端到端的数据沿袭347611月24日
读数据质量管理:数据可靠性与数据质量问题解决之道14普及数据质量第8章 推广和普及数据质量319311月25日
读数据质量管理:数据可靠性与数据质量问题解决之道15数据信任第8章 推广和普及数据质量289011月26日
读数据质量管理:数据可靠性与数据质量问题解决之道16数据认证第8章 推广和普及数据质量429611月27日
读数据质量管理:数据可靠性与数据质量问题解决之道17数据网格第9章 现实世界中的数据质量:对话和案例分析334611月28日
读数据质量管理:数据可靠性与数据质量问题解决之道18数据发现第9章 现实世界中的数据质量:对话和案例分析282111月29日
读数据质量管理:数据可靠性与数据质量问题解决之道19数据未来第10章 开创可靠数据系统的未来268811月30日
$总计61295$

2. 亮点

2.1 数据标准化

  • 标准化通常是你的数据在管道中经过的诸多此类转换中的第一个

  • 非常重要

2.2 数据测试

  • 数据测试的两个最佳工具分别是dbt测试和Great Expectation

2.3 数据沿袭

  • 通俗点说,就是来龙去脉

2.4 数据信任

  • 重中之重,不可信,有何用?
    • 其实,也是很有用的。。。。。
    • 比如,米国的那些非农啊、就业啊等等数据操控之用(冠冕堂皇地说法,预期管理)

3. 感想

3.1 总结要及时

  • 总结一定要及时啊,因为时间长了,容易忘
  • 但是,换一个说法,就是没有忘的,就是沉淀下来的精华啊

3.2 数据工程越来越重要

  • 随着时代的发展,AI是数据需求的重头戏,而数据工程是保障数据质量的关键环境,“垃圾进,垃圾出“,数据工程势必占据越来越重要的地位

3.3 数据质量保障是一个长期、持续的过程

  • 只要有数据产生,就要保障数据质量,不会一劳永逸,只会持续不断跟进

3.4 数据信任和操控

  • 前文提到了数据操控,其实还是基于数据信任的

  • 为什么要数据操控?是因为数据不符合预期。

  • 为什么会认为数据不符合预期?是因为相信数据得到的结果,还是要信任啊。

  • 也许你会说,样本取样的问题?为什么样本取样有问题?为什么不全面取样?是不能还是不敢,亦或是不为

  • 修正前期的数据又为啥?

3.5 好书,推荐阅读


成都市作为中国西部地区具有战略地位的核心都市,其人口的空间分布状况对于城市规划、社会经济发展及公共资源配置等研究具有基础性数据价值。本文聚焦于2019年度成都市人口分布的空间数据集,该数据以矢量格式存储,属于地理信息系统中常用的数据交换形式。以下将对数据集内容及其相关技术要点进行系统阐述。 Shapefile 是一种由 Esri 公司提出的开放型地理空间数据格式,用于记录点、线、面等几何要素。该格式通常由一组相互关联的文件构成,主要包括存储几何信息的 SHP 文件、记录属性信息的 DBF 文件、定义坐标系统的 PRJ 文件以及提供快速检索功能的 SHX 文件。 1. **DBF 文件**:该文件以 dBase 表格形式保存各地理要素相关联的属性信息,例如各区域的人口统计数值、行政区划名称及编码等。这类表格结构便于在各类 GIS 平台中进行查询编辑。 2. **PRJ 文件**:此文件明确了数据所采用的空间参考系统。本数据集基于 WGS84 地理坐标系,该坐标系在全球范围内广泛应用于定位空间分析,有助于实现跨区域数据的准确整合。 3. **SHP 文件**:该文件存储成都市各区(县)的几何边界,以多边形要素表示。每个多边形均配有唯一标识符,可属性表中的相应记录关联,实现空间数据统计数据的联结。 4. **SHX 文件**:作为形状索引文件,它提升了在大型数据集中定位特定几何对象的效率,支持快速读取显示。 基于上述数据,可开展以下几类空间分析: - **人口密度评估**:结合各区域面积对应人口数,计算并比较人口密度,识别高密度低密度区域。 - **空间集聚识别**:运用热点分析(如 Getis-Ord Gi* 统计)或聚类算法(如 DBSCAN),探测人口在空间上的聚集特征。 - **空间相关性检验**:通过莫兰指数等空间自相关方法,分析人口分布是否呈现显著的空间关联模式。 - **多要素叠加分析**:将人口分布数据地形、交通网络、环境指标等其他地理图层进行叠加,探究自然人文因素对人口布局的影响机制。 2019 年成都市人口空间数据集为深入解析城市人口格局、优化国土空间规划及完善公共服务体系提供了重要的数据基础。借助地理信息系统工具,可开展多尺度、多维度的定量分析,从而为城市管理学术研究提供科学依据。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值