23、概率链接与路径查询的研究与实践

概率链接与路径查询的研究与实践

1. 概率链接查询评估

在数据处理中,概率链接查询评估是一项重要任务。传统方法常使用简单概率阈值获取确定链接集,而现在我们充分利用记录链接方法产生的概率,将链接记录视为可能世界上的分布,这样能为聚合查询提供更有意义的答案。

1.1 真实数据集实验

我们对癌症登记数据集和社会保障死亡索引数据集进行了排名查询和聚合查询。癌症登记数据集包含 50,000 条患者个人信息记录,如姓名和社保号;社会保障死亡索引数据集包含 10,000 条个人信息记录,如姓名、社保号和死亡日期。由于部分记录信息不完整或模糊,无法找到两数据集记录的精确匹配。

使用 Link Plus 2.01 工具计算两条记录指向同一人的概率,它基于姓名、社保号和出生日期匹配记录,返回 4,658 对链接概率大于 0 的记录。系统建议设置匹配链接概率阈值,默认阈值 0.25 时仅返回 99 对记录。

  • 概率 top - k 查询 :我们进行了 k = 10、p = 0.3 的概率 top - k 查询,找出癌症登记中报告死亡的前 10 名最年轻患者。考虑不同概率阈值下的结果,发现考虑所有匹配概率大于 0 的链接对时,结果与仅考虑通过阈值 0.25 的链接对有很大不同。
    |姓名|年龄|前 10 名概率|
    | ---- | ---- | ---- |
    |Larry Stonebraker|35|0.8375|
    |Catherine Spicer|46|0.775|
    |Bruce Mourer|47|0.87875|
    |Jason Hadd

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值