22、小数据库中的关联规则及数据预处理

小数据库中的关联规则及数据预处理

1. 相似度计算方法

在处理文档和查询的相似度时,由于使用潜在语义的相似度与关联语义的相似度类似,这里主要介绍基于关联语义的相似度算法。

1.1 简单相似度测量算法(SimpleSimMeasure)

该算法用于估计两个文档 (D) 和 (Q) 之间的简单相似度。具体步骤如下:

Procedure 7.1 SimpleSimMeasure
begin
    Input: D: document, Q: a query;
    Output: M sim
    AS (D, Q): the similarity;
    (1) for d ∈D do
        begin
            generate AS(d|D);
            let ASD ←ASD ∪AS(d|D);
        end
    for q ∈Q do
        begin
            generate AS(q|Q);
            let ASQ ←ASQ ∪AS(q|Q);
        end
    (2) let M sim
    AS (D, Q) ←|ASD ∩ASQ|/|ASD ∪ASQ|;
    (3) output the similarity between D and Q is M sim
    AS (D, Q);
endall.
end;

操作步骤:
1. 对于文档 (D) 中的每个元素 (d),生成 (AS(d|D)),并将其加

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值