22、小数据库中的关联规则及数据预处理

杠精协会主席

于 2025-10-15 09:05:08 发布

阅读量21

点赞数

CC 4.0 BY-SA版权

分类专栏：关联规则挖掘的艺术文章标签：相似度计算数据预处理关联规则

本文链接：https://blog.youkuaiyun.com/docker7nomad/article/details/153464306

关联规则挖掘的艺术专栏收录该内容

24 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

小数据库中的关联规则及数据预处理

1. 相似度计算方法

在处理文档和查询的相似度时，由于使用潜在语义的相似度与关联语义的相似度类似，这里主要介绍基于关联语义的相似度算法。

1.1 简单相似度测量算法（SimpleSimMeasure）

该算法用于估计两个文档 (D) 和 (Q) 之间的简单相似度。具体步骤如下：

Procedure 7.1 SimpleSimMeasure
begin
    Input: D: document, Q: a query;
    Output: M sim
    AS (D, Q): the similarity;
    (1) for d ∈D do
        begin
            generate AS(d|D);
            let ASD ←ASD ∪AS(d|D);
        end
    for q ∈Q do
        begin
            generate AS(q|Q);
            let ASQ ←ASQ ∪AS(q|Q);
        end
    (2) let M sim
    AS (D, Q) ←|ASD ∩ASQ|/|ASD ∪ASQ|;
    (3) output the similarity between D and Q is M sim
    AS (D, Q);
endall.
end;

操作步骤：
1. 对于文档 (D) 中的每个元素 (d)，生成 (AS(d|D))，并将其加