数据项目启动与规划全解析
在数据项目中,数据存储可能会遭遇各种问题,如投资不足导致存储空间紧张,从而丢弃数据;错误的查询或硬件故障可能导致数据丢失;数据质量提升、架构重构和平台迁移等操作也可能引入噪声。了解数据演变的事件链,能解释建模时出现的奇怪结果,避免团队浪费时间。同时,收集数据相关信息对深化项目伦理认知也很重要。
数据存储面临的问题与应对
数据存储多年来可能遭遇各种灾难,如投资不足使存储空间减少,导致数据被丢弃,这种情况有时是系统性的,有时是随机的。意外也会发生,比如编写不佳的查询可能导致数据丢失,直到无法恢复才被发现;硬件故障会随着时间损坏数据表。此外,诸如糟糕的舍入或类型转换等隐蔽事件和错误,会逐渐在数据中引入噪声。
数据存储还会经历质量改进、架构重构和平台迁移等操作。这些操作可能对数据及其用于建模的代表性毫无影响,但也可能出大问题。为支持新用例引入的更改和功能可能伴随着错误,或需要更新,从而影响数据。数据字段可能从短整数迁移到长整数或浮点数,有时操作良好,但数据不重要;有时简单的存储类型修正(如从32位到64位)会引入噪声。
隐私、安全和伦理计划
理解数据收集的动机、方法、谱系以及影响存储中数据集的事件,有助于形成使用数据的伦理影响图景。但建模团队关注的技术问题,对于全面了解团队需要处理的伦理、隐私和安全问题是必要但不充分的。需要进行Sprint 0待办事项中的设置5,以构建更全面的图景,从而在项目现在和后期对这些重要问题做出明智决策。
设置5具体包括:
- 审查项目企业社会责任(CSR)和伦理。
- 构建并共享隐私、安全和数据处理计划。
在项目前期工作中,会对驱动
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



