11、数据处理与存储:从整理到应用

数据处理与存储:从整理到应用

在数据处理的工作中,整理数据是迈向成功分析的关键一步。当原始数据经过整理后,我们会得到一个整洁的数据集,这是任何数据科学家或分析师都乐于处理的,也是模型探索阶段的起点。

1. 整理后的数据示例

以下是一个从文章阅读原始数据整理后得到的示例表格:
| date | categories | category_reads |
|------------|--------------------|----------------|
| 2021-07-01 | r | 66 |
| 2021-07-01 | google-tag-manager | 42 |
| 2021-07-01 | docker | 41 |
| 2021-07-01 | google-analytics | 41 |
| 2021-07-01 | cloud-run | 25 |
| 2021-07-01 | cloud-functions | 23 |

在实际工作中,将原始数据整理成这样的格式并非一蹴而就,往往需要多次尝试和调整。不过,只要牢记整洁数据的原则,就能避免后续的重复工作。

2. 不同角色的数据集

原始数据通常不适用于生产环境,甚至不适合直接提供给内部终端用户。随着用户数量的增加,为特定目的准备整洁的数据集变得尤为重要。同时,保留“真实数据源”也很关键,以便追溯派生数据集的创建过程。这就涉及到数据治理,即确定谁在访问何种类型的数据。

以下是几种不同角色的数据集:
- 原始数据 :建

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值