记录链接:随机与机器学习方法
1. 基于权重的方法
在记录链接任务中, epiWeights 函数实现了基于权重的方法。可以通过以下 R 代码查看该方法的相关文档:
help("epiWeights")
具体操作步骤如下:
1. 加载所需的包和数据:
library(RecordLinkage)
data("RLdata500")
- 进行特征比较和权重计算:
rec.pairs <- compare.dedup(RLdata500,
blockfld = list(1, 5:7),
strcmp = c(2,3,4),
strcmpfun = levenshteinSim)
pairs.weights <- epiWeights(rec.pairs)
hist(pairs.weights$Wdata)
- 查看权重分布:
summary(pairs.weights)
权重分布情况如下表所示
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



