玩转python: 数据结构优化技巧：空间与时间复杂度的权衡指南（续篇3）-优快云博客

本文链接：https://blog.youkuaiyun.com/Luckstar2019/article/details/146411080

引言

在前两篇文章中，我们探讨了哈希表、链表、生成器、缓存、并行处理、前缀树、布隆过滤器、跳表、位图、LRU缓存等多种优化技巧。本文将继续深入，分享更多实战案例，帮助开发者在不同场景下优化数据结构，进一步提升程序性能。

实战案例解析

案例1：线段树优化区间查询

场景：需要对一个数组进行频繁的区间查询和更新操作。
问题：普通数组的区间查询和更新操作时间复杂度为O(n)，效率较低。
优化方案：使用线段树（Segment Tree），将区间查询和更新操作的时间复杂度优化至O(log n)。
代码示例：

class SegmentTree:  
    def __init__(self, data):  
        self.n = len(data)  
        self.size = 2 ** (self.n - 1).bit_length()  
        self.tree = [0] * (2 * self.size)  
        self.tree[self.size:self.size + self.n] = data  
        for i in range(self.size - 1, 0, -1):  
            self.tree[i] = self.tree[2 * i] + self.tree[2 * i + 1]  

    def update(self, index, value):  
        index += self.size  
        self.tree[index] = value  
        while index > 1:  
            index //= 2  
            self.tree[index] = self.tree[2 * index] + self.tree[2 * index + 1]  

    def query(self, l, r):  
        l += self.size  
        r += self.size  
        res = 0  
        while l <= r:  
            if l % 2 == 1:  
                res += self.tree[l]  
                l += 1  
            if r % 2 == 0:  
                res += self.tree[r]  
                r -= 1  
            l //= 2  
            r //= 2  
        return res  

# 使用示例  
data = [1, 3, 5, 7, 9, 11]  
st = SegmentTree(data)  
print(st.query(1, 4))  # 输出: 24 (3 + 5 + 7 + 9)  
st.update(2, 10)  
print(st.query(1, 4))  # 输出: 29 (3 + 10 + 7 + 9)

效果：区间查询和更新操作效率显著提升，适用于需要频繁区间操作的场景。

案例2：并查集优化动态连通性问题

场景：判断图中两个节点是否连通，并动态合并节点。
问题：普通方法在动态合并和查询时效率较低。
优化方案：使用并查集（Union-Find）数据结构，支持高效的合并和查询操作。
代码示例：

class UnionFind:  
    def __init__(self, n):  
        self.parent = list(range(n))  
        self.rank = [1] * n  

    def find(self, x):  
        if self.parent[x] != x:  
            self.parent[x] = self.find(self.parent[x])  # 路径压缩  
        return self.parent[x]  

    def union(self, x, y):  
        root_x, root_y = self.find(x), self.find(y)  
        if root_x != root_y:  
            if self.rank[root_x] > self.rank[root_y]:  
                self.parent[root_y] = root_x  
            else:  
                self.parent[root_x] = root_y  
                if self.rank[root_x] == self.rank[root_y]:  
                    self.rank[root_y] += 1  

# 使用示例  
uf = UnionFind(5)  
uf.union(0, 1)  
uf.union(2, 3)  
print(uf.find(1) == uf.find(0))  # 输出: True  
print(uf.find(3) == uf.find(4))  # 输出: False

效果：合并和查询操作接近O(1)，适用于动态连通性问题。

案例3：单调栈优化区间最值问题

场景：查找数组中每个元素的下一个更大元素。
问题：暴力解法的时间复杂度为O(n^2)，效率较低。
优化方案：使用单调栈（Monotonic Stack），将时间复杂度优化至O(n)。
代码示例：

def next_greater_element(nums):  
    stack = []  
    result = [-1] * len(nums)  
    for i, num in enumerate(nums):  
        while stack and nums[stack[-1]] < num:  
            result[stack.pop()] = num  
        stack.append(i)  
    return result  

# 使用示例  
nums = [4, 5, 2, 10, 8]  
print(next_greater_element(nums))  # 输出: [5, 10, 10, -1, -1]

效果：查找下一个更大元素的效率显著提升，适用于区间最值问题。

案例4：字典树优化多模式匹配

场景：在文本中查找多个关键词的出现位置。
问题：普通字符串匹配方法效率较低，无法同时匹配多个关键词。
优化方案：使用字典树（Trie）结合AC自动机（Aho-Corasick）算法，实现高效的多模式匹配。
代码示例：

from collections import defaultdict, deque  

class AhoCorasick:  
    def __init__(self, keywords):  
        self.transitions = defaultdict(dict)  
        self.outputs = defaultdict(list)  
        self.build_failure_links(keywords)  

    def build_failure_links(self, keywords):  
        for keyword in keywords:  
            self.add_keyword(keyword)  
        queue = deque()  
        for char, state in self.transitions[0].items():  
            queue.append((state, 0))  
        while queue:  
            current_state, parent_state = queue.popleft()  
            for char, next_state in self.transitions[current_state].items():  
                queue.append((next_state, current_state))  
                fail_state = self.transitions[parent_state].get(char, 0)  
                self.transitions[current_state][char] = fail_state  
                self.outputs[current_state].extend(self.outputs[fail_state])  

    def add_keyword(self, keyword):  
        state = 0  
        for char in keyword:  
            if char not in self.transitions[state]:  
                self.transitions[state][char] = len(self.transitions)  
            state = self.transitions[state][char]  
        self.outputs[state].append(keyword)  

    def search(self, text):  
        state = 0  
        results = []  
        for i, char in enumerate(text):  
            while state != 0 and char not in self.transitions[state]:  
                state = self.transitions[0].get(char, 0)  
            if char in self.transitions[state]:  
                state = self.transitions[state][char]  
            for keyword in self.outputs[state]:  
                results.append((i - len(keyword) + 1, keyword))  
        return results  

# 使用示例  
ac = AhoCorasick(["he", "she", "his", "hers"])  
text = "ahishers"  
print(ac.search(text))  # 输出: [(1, 'he'), (4, 'she'), (4, 'hers')]

效果：多模式匹配效率显著提升，适用于文本搜索场景。

案例5：分块优化大规模数据查询

场景：对大规模数据进行区间查询和更新操作。
问题：普通数组或线段树在大规模数据下性能不足。
优化方案：使用分块（Square Root Decomposition）数据结构，将数据分成若干块，平衡查询和更新操作的时间复杂度。
代码示例：

import math  

class SqrtDecomposition:  
    def __init__(self, data):  
        self.n = len(data)  
        self.block_size = int(math.sqrt(self.n)) + 1  
        self.blocks = [0] * self.block_size  
        self.data = data  
        for i in range(self.n):  
            self.blocks[i // self.block_size] += data[i]  

    def update(self, index, value):  
        block_id = index // self.block_size  
        self.blocks[block_id] += value - self.data[index]  
        self.data[index] = value  

    def query(self, l, r):  
        res = 0  
        while l <= r:  
            if l % self.block_size == 0 and l + self.block_size - 1 <= r:  
                res += self.blocks[l // self.block_size]  
                l += self.block_size  
            else:  
                res += self.data[l]  
                l += 1  
        return res  

# 使用示例  
data = [1, 3, 5, 7, 9, 11, 13, 15]  
sd = SqrtDecomposition(data)  
print(sd.query(1, 5))  # 输出: 35 (3 + 5 + 7 + 9 + 11)  
sd.update(2, 10)  
print(sd.query(1, 5))  # 输出: 40 (3 + 10 + 7 + 9 + 11)