数据处理与存储:从整理到应用
在数据处理的工作中,整理数据是迈向成功分析的关键一步。当原始数据经过整理后,我们会得到一个整洁的数据集,这是任何数据科学家或分析师都乐于处理的,也是模型探索阶段的起点。
1. 整理后的数据示例
以下是一个从文章阅读原始数据整理后得到的示例表格:
| date | categories | category_reads |
|------------|--------------------|----------------|
| 2021-07-01 | r | 66 |
| 2021-07-01 | google-tag-manager | 42 |
| 2021-07-01 | docker | 41 |
| 2021-07-01 | google-analytics | 41 |
| 2021-07-01 | cloud-run | 25 |
| 2021-07-01 | cloud-functions | 23 |
在实际工作中,将原始数据整理成这样的格式并非一蹴而就,往往需要多次尝试和调整。不过,只要牢记整洁数据的原则,就能避免后续的重复工作。
2. 不同角色的数据集
原始数据通常不适用于生产环境,甚至不适合直接提供给内部终端用户。随着用户数量的增加,为特定目的准备整洁的数据集变得尤为重要。同时,保留“真实数据源”也很关键,以便追溯派生数据集的创建过程。这就涉及到数据治理,即确定谁在访问何种类型的数据。
以下是几种不同角色的数据集:
- 原始数据 :建
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



