空间天际线与多值对象相似度连接技术解析
1. 算法复杂度与对象访问数量估计
在相关算法中,第24行的复杂度为 (O(|C| × log(|C|))),第24 - 26行的天际线计算在最坏情况下的成本为 (|S|^2)。设 (n_r) 和 (n_s) 分别表示冗余命中和非冗余命中的数量,算法2的时间复杂度为 (O((n_r + n_s)×(C_{inn} + log(n_f)) + n_s×|S| + (m - 1)×|C|×C_{nn} + |C|×log(|C|) + |S|^2))。在实际应用中,(|S|) 和 (|C|) 远小于对象总数,因此该算法效率较高。
基于均匀和独立性假设,有如下定理用于估计算法2中被访问的对象数量(即至少被命中一次的对象)。
定理4 :假设 (i) 对象和设施在空间 ([0, 1]^2) 中均匀分布;(ii) 每种类型有 (n_f) 个设施;(iii) 不同类型设施的位置相互独立。算法2中被访问对象的期望数量为 (n(1 - (1 - π \overline{X}^2)^m)),其中 (n) 是对象的数量。特别地,(\overline{X}) 等于 (\int_{r = 0}^{c}(1 - F(r))’r d(r)),其中 (c = \frac{1}{\sqrt{2n_f}}),且 (F(r) = (1 - (n_fπr^2)^m)^n)。
证明 :由于空间限制,给出简要证明。根据均匀假设且每种类型的设施数量相同,在每次迭代中可假设 (r_i = r_j)((1 ≤ i, j ≤ m)),因此用 (r) 表示任意 (i ∈ [1, m]) 的 (r_i
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



