可寻址内容空间中协同过滤最近邻的检索
1 概述
本文提出了一种基于内容可寻址对等平台 CAN 思想的协同过滤(CF)快速启发式变体算法。该算法使用类似 CAN 的多维空间来维护用户的连接结构,通过将搜索过程限制在与活跃用户相近的潜在相似用户中,显著减少了相似度计算和邻域形成阶段所需的计算量。
2 可寻址内容数据管理
2.1 CAN 架构
CAN 是一个可扩展的去中心化数据管理平台。在 CAN 中,用户通过虚拟 N 维坐标空间的节点一一对应表示,用户节点的位置用向量 $(v_1, v_2, \ldots, v_N)$ 表示,其中 $v_i$ 是节点在第 $i$ 维的数值坐标。每个用户还管理一个 N 维子空间,称为区域。
例如,在二维空间中,假设有三个用户 A、B 和 C 管理三个区域,如图 1 左侧所示。
2.2 邻居关系
在 CAN 空间中,如果两个节点(和区域)的坐标跨度在 $N - 1$ 个维度上重叠,且在一个维度上相邻,则称它们为邻居。例如,图 1 左侧中的邻居区域 A 和 C,它们的坐标在水平维度上部分重叠,在垂直维度上相邻。为了维护 CAN 空间的连通性,每个节点存储一个指向管理邻居区域的其他节点的指针列表。
2.3 消息路由
CAN 空间中的消息路由基于 Plaxton 路由算法。该算法使用贪心转发策略,将消息迭代转发到比当前节点更接近目标节点的节点。地址空间中两个节点之间的距离评估指标是 L1 度量,即曼哈顿距离。例如,在三维 CAN 空间中,节点 $(1, 2, 3)$ 和 $(6, 5, 4)$ 之间的距离为 $(6 - 1)
超级会员免费看
订阅专栏 解锁全文
372

被折叠的 条评论
为什么被折叠?



