65、空间天际线与多值对象相似度连接技术解析-优快云博客

本文链接：https://blog.youkuaiyun.com/h0i1j2k3l/article/details/154169304

空间天际线与多值对象相似度连接技术解析

1. 算法复杂度与对象访问数量估计

在相关算法中，第24行的复杂度为 (O(|C| × log(|C|)))，第24 - 26行的天际线计算在最坏情况下的成本为 (|S|^2)。设 (n_r) 和 (n_s) 分别表示冗余命中和非冗余命中的数量，算法2的时间复杂度为 (O((n_r + n_s)×(C_{inn} + log(n_f)) + n_s×|S| + (m - 1)×|C|×C_{nn} + |C|×log(|C|) + |S|^2))。在实际应用中，(|S|) 和 (|C|) 远小于对象总数，因此该算法效率较高。

基于均匀和独立性假设，有如下定理用于估计算法2中被访问的对象数量（即至少被命中一次的对象）。

定理4 ：假设 (i) 对象和设施在空间 ([0, 1]^2) 中均匀分布；(ii) 每种类型有 (n_f) 个设施；(iii) 不同类型设施的位置相互独立。算法2中被访问对象的期望数量为 (n(1 - (1 - π \overline{X}^2)^m))，其中 (n) 是对象的数量。特别地，(\overline{X}) 等于 (\int_{r = 0}^{c}(1 - F(r))’r d(r))，其中 (c = \frac{1}{\sqrt{2n_f}})，且 (F(r) = (1 - (n_fπr^2)^m)^n)。

证明：由于空间限制，给出简要证明。根据均匀假设且每种类型的设施数量相同，在每次迭代中可假设 (r_i = r_j)（(1 ≤ i, j ≤ m)），因此用 (r) 表示任意 (i ∈ [1, m]) 的 (r_i