数据整合:真实世界示例
1. 数据描述
源数据的物理架构存于名为“Phones”的数据库中,该数据库包含一个名为“SourceData”的架构,此架构下有两张表:
| 表名 | 用途 | 列信息 |
| ---- | ---- | ---- |
| SourceData.Contracts | 存储虚拟手机服务提供商的客户记录 | ContractId(记录标识符,但未声明唯一性)、PhoneId(特定合同下每部手机的标识符)、PhoneNumberHash(原存储电话号码,已哈希处理以保护隐私)、IsCorporate(标志是否为工作电话)、CitySize(手机注册城市的公民数量) |
| SourceData.Actions | 存储手机用户的每一个操作记录,如语音通话或短信 | RecordId(记录标识符,未声明主键或唯一约束)、PhoneId(应引用SourceData.Contracts表中的PhoneId列,但未声明外键)、PartnerPhoneNumberHash(接收短信或语音通话的掩码电话号码)、ActionRoute(需探索其值的含义)、DateAndTime(短信或语音通话的时间戳)、Units(操作花费的测量单位数量)、UnitPrice(单位价格)、Subtotal(Units * UnitPrice的结果)、Unit(Units列中数字的单位)、RecomputeUnits(标志单位是否需要重新计算) |
两张表都缺少主键,且表间引用关系缺失。我们不确定数据质量,也不清楚SourceData.Actions表中列的统计信息和数据分布。因此,下一步是探索数据、确保其质量并进行数据规范化。
超级会员免费看
订阅专栏 解锁全文
3155

被折叠的 条评论
为什么被折叠?



