多值对象的Top-k相似度连接技术解析
1. 背景知识
在处理多值对象的Top-k相似度连接问题时,我们需要先了解一些基本概念和符号。以下是一些常用符号及其定义:
| 符号 | 定义 |
| ---- | ---- |
| U, V | 连接查询中的两组对象 |
| U (V) | 多值对象 |
| E | R树的条目 |
| u (v) | U (V) 的实例 - d维空间中的一个点 |
| w(u) (w(S)) | u (集合S) 的(总)权重 |
| d(u, v) | u和v之间的欧几里得距离 |
| dlo(E, E′) | E和E′之间的距离下界 |
| dφ(U, V) | U和V的φ分位数距离 |
| U × V | 从U到V的实例的笛卡尔积 |
1.1 问题定义
- 多值对象 :在我们的问题定义中,对象U的每个实例都有一个权重,该权重表示该实例在U中的代表性。例如,在游戏统计中,玩家的某个统计数据可能会多次出现,此时可以使用归一化权重(即某个实例的出现次数除以所有实例的总出现次数)来表示其代表性。多值对象U可以表示为{(ui, w(ui))|1 ≤ i ≤ m},其中ui是d维空间中的一个点,0 < w(ui) ≤ 1 (1 ≤ i ≤ m),且所有w(ui)的总和为1。
- 分位数 :给定一个包含m个元素的集合S,每个元素si都有一个权重w(si),其中0 < w(si) ≤ 1且所有w(si)的总和为1。将S按照搜索键f(一个函
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



