注意:这个问题与
Python没有特别的关系.我在这里用它作为伪代码的替代品.
给定一个包含平均长度为M的N个字符串的数组A,我想创建一个新的数组B,它只包含A中那些不是A中任何其他字符串的子字符串(或相同副本)的字符串.这是一个例子:
A = [ 'foo', 'bar', 'foobar', 'foobar' ]
B = [ 'foobar' ]
我特别想在时间复杂度方面寻找最有效的方法.天真的方法看起来像这样
B = []
for i in range(0, len(A)):
noSubstring = True
for j in range(i + 1, len(A)):
if A[i] in A[j]:
noSubstring = False
break
if noSubstring:
B.append(A[i])
时间复杂度为O(N ^ 2 * M ^ 2).有什么办法可以加快速度吗?
我一直在考虑使用专用数据结构来有效地编码和重用字符串序列.例如,如果我想删除只是数组中另一个字符串前缀的字符串,我可以创建一个trie /前缀树(O(N * M)),然后收集所有叶元素(另一个O(N * N *) M)).到目前为止,我失败了,但是这种方法适用于更普遍的子串问题.