概率链接与路径查询的研究与实践
1. 概率链接查询评估
在数据处理中,概率链接查询评估是一项重要任务。传统方法常使用简单概率阈值获取确定链接集,而现在我们充分利用记录链接方法产生的概率,将链接记录视为可能世界上的分布,这样能为聚合查询提供更有意义的答案。
1.1 真实数据集实验
我们对癌症登记数据集和社会保障死亡索引数据集进行了排名查询和聚合查询。癌症登记数据集包含 50,000 条患者个人信息记录,如姓名和社保号;社会保障死亡索引数据集包含 10,000 条个人信息记录,如姓名、社保号和死亡日期。由于部分记录信息不完整或模糊,无法找到两数据集记录的精确匹配。
使用 Link Plus 2.01 工具计算两条记录指向同一人的概率,它基于姓名、社保号和出生日期匹配记录,返回 4,658 对链接概率大于 0 的记录。系统建议设置匹配链接概率阈值,默认阈值 0.25 时仅返回 99 对记录。
-
概率 top - k 查询 :我们进行了 k = 10、p = 0.3 的概率 top - k 查询,找出癌症登记中报告死亡的前 10 名最年轻患者。考虑不同概率阈值下的结果,发现考虑所有匹配概率大于 0 的链接对时,结果与仅考虑通过阈值 0.25 的链接对有很大不同。
|姓名|年龄|前 10 名概率|
| ---- | ---- | ---- |
|Larry Stonebraker|35|0.8375|
|Catherine Spicer|46|0.775|
|Bruce Mourer|47|0.87875|
|Jason Hadd
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



