数据摄取与存储:从原理到实践
1. 数据隐私与CRM数据库导入
在处理数据时,数据隐私是一个重要的考虑因素。在云存储(GCS)中,可以设置数据的过期时间,从而安全地删除任何个人数据。可以结合定期导入功能,设置一个在数据请求合法响应时间范围内的过期时间。这意味着无需在云端复制源系统现有的数据删除程序,例如,当用户在现有系统中请求删除其数据时,该请求会在30天内过滤到云端数据。
当处理通常存在于内部数据库(如CRM)中的个人数据时,隐私问题更为常见。对于通过GCS导入CRM数据库数据,一般做法是让客户负责将数据导出到Cloud Storage,而自己负责数据到达Cloud Storage后的处理。具体步骤如下:
1. 客户向开发团队提出简单请求,如将A、B、C列导出为CSV或JSON文件,并使用gcloud或Cloud Storage SDK安排上传到GCS。
2. 若为内部人员,可能会更多参与从本地MySQL数据库创建和交付实际导出数据的过程。
3. 指定上传到Cloud Storage而非直接上传到BigQuery,这样导出团队无需遵循任何特定模式,在从Cloud Storage加载数据时再处理模式问题,同时还能提供方便的原始数据备份。
4. 使用仅受限为Cloud Storage存储桶角色的服务密钥认证文件编写从本地CRM数据库导出数据的脚本。
5. 数据到达Cloud Storage后,可使用Cloud Function将数据加载到BigQuery。
下面是一个简单的mermaid流程图,展示了CRM数据库数据导入的流程:
graph LR
数据摄取与存储:原理、实践与趋势
超级会员免费看
订阅专栏 解锁全文
22

被折叠的 条评论
为什么被折叠?



