29、数据整合:真实世界示例

数据整合:真实世界示例

1. 数据描述

源数据的物理架构存于名为“Phones”的数据库中,该数据库包含一个名为“SourceData”的架构,此架构下有两张表:
| 表名 | 用途 | 列信息 |
| ---- | ---- | ---- |
| SourceData.Contracts | 存储虚拟手机服务提供商的客户记录 | ContractId(记录标识符,但未声明唯一性)、PhoneId(特定合同下每部手机的标识符)、PhoneNumberHash(原存储电话号码,已哈希处理以保护隐私)、IsCorporate(标志是否为工作电话)、CitySize(手机注册城市的公民数量) |
| SourceData.Actions | 存储手机用户的每一个操作记录,如语音通话或短信 | RecordId(记录标识符,未声明主键或唯一约束)、PhoneId(应引用SourceData.Contracts表中的PhoneId列,但未声明外键)、PartnerPhoneNumberHash(接收短信或语音通话的掩码电话号码)、ActionRoute(需探索其值的含义)、DateAndTime(短信或语音通话的时间戳)、Units(操作花费的测量单位数量)、UnitPrice(单位价格)、Subtotal(Units * UnitPrice的结果)、Unit(Units列中数字的单位)、RecomputeUnits(标志单位是否需要重新计算) |

两张表都缺少主键,且表间引用关系缺失。我们不确定数据质量,也不清楚SourceData.Actions表中列的统计信息和数据分布。因此,下一步是探索数据、确保其质量并进行数据规范化。

2. 数据探索 <
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值