近似字符串匹配与小出现实例问题研究
近似字符串匹配的索引结构
在近似字符串匹配中,对于在 $S_j$ 中匹配的每个模式,其函数的时间复杂度为 $O(|V (x, k, r)|×δn×t×k×|S_j|^2) = O(|V (x, k, r)| × δn × |S| \hat{R} × k × \hat{R}^2) = O(|V (x, k, r)| × δn × |S| × k × \hat{R})$。对于满足 $B[j] = \text{Find - Repetition - Index}(A[j], k, \frac{6 \log(n)}{H(0,p)}) > -1$ 的文档 $d_j$,长度为 $m$ 的每个模式在 $S_j$ 中每 $R(S, k, r(n))$ 个符号最多出现 $k$ 个错误,且仅出现在一个位置,因此可以得到与命题 5 相同的界。那么总体时间复杂度为 $O(m|\Sigma|^m + |V (x, k, r)| × (|S| - m + 1) + |V (x, k, r)| × δn × |S| × k × \hat{R})$。
由此得出定理:如果 $\delta n × \hat{R} → 0$,则函数 $\text{Search - in - Indexing - Structure}$ 的平均运行时间为 $O(m + \frac{|V (x, k, r)|(|S| - m + 1)}{|\Sigma|^m})$。需要注意的是,在类似情况下的大偏差定理表明,像 $\delta n$ 这样表示数量平均值的变量收敛到零的速度相当快,所以 $\delta n × \hat{R} → 0$ 这个假设是相当现实的。
超级会员免费看
订阅专栏 解锁全文
640

被折叠的 条评论
为什么被折叠?



