字母异位词分组：哈希表深度应用的“神操作”

最新推荐文章于 2025-04-03 23:47:56 发布

Echo_Wish

最新推荐文章于 2025-04-03 23:47:56 发布

阅读量345

点赞数 3

分类专栏： LeetCode专题文章标签：散列表 c# 数据结构

本文链接：https://blog.youkuaiyun.com/weixin_46178278/article/details/146798611

版权

LeetCode专题专栏收录该内容

52 篇文章

订阅专栏

字母异位词分组：哈希表深度应用的“神操作”

在算法的世界里，哈希表是一种既简单又强大的数据结构。它以快速查询和高效存储的特点，让许多复杂问题变得清晰明了。今天，咱们就以一个经典的算法问题——字母异位词分组，深入探讨哈希表的深度应用以及它的背后思路。

一、问题背景：什么是字母异位词？

字母异位词是指两个或多个字符串包含的字母完全相同，但排列顺序不同。比如：

“eat”、“tea” 和 “ate” 是异位词。
“bat” 和 “tab” 也是异位词。

那么问题来了：给定一组字符串，如何快速把所有的异位词分成一组一组的？

二、直击核心：哈希表如何解决问题？

哈希表是这个问题的“最优解”，原因在于它能快速查询和分组。关键在于设计一个唯一的键（key），将异位词映射到同一组中。

设计哈希键的技巧

排序字符串：将每个单词的字母排序后作为键。例如，“eat” 排序后是 “aet”，“tea” 和 “ate” 排序后也是 “aet”。
字母计数：统计每个单词中26个字母出现的次数，将此计数作为键。例如，“aab” 的键可以表示为 [2, 1, 0, …, 0]（共26位）。

下面我以排序法为例展开代码说明。

三、代码实现与讲解

我们用Python实现字母异位词分组，充分展示哈希表的高效特性。

from collections import defaultdict

def group_anagrams(words):
    """
    将一组字符串按字母异位词分组。
    
    参数：
        words (List[str]): 输入字符串列表。
    返回：
        List[List[str]]: 按字母异位词分组后的结果。
    """
    # 使用 defaultdict 创建一个哈希表，值为列表
    hash_table = defaultdict(list)

    for word in words:
        # 关键操作：对单词进行排序，生成唯一的哈希键
        sorted_key = ''.join(sorted(word))  # 对单词字母排序
        hash_table[sorted_key].append(word)  # 将单词添加到对应组

    # 返回分组结果
    return list(hash_table.values())

# 示例用法
input_words = ["eat", "tea", "tan", "ate", "nat", "bat"]
grouped_anagrams = group_anagrams(input_words)
print("分组结果:", grouped_anagrams)

代码详解：

哈希表构建：
- 使用 defaultdict(list)，默认值是空列表，便于存放分组结果。
- 排序后的单词作为唯一键，将相同组的单词映射到同一键下。
排序生成键：
- sorted(word) 对字符串按字母排序，保证相同字符组成的单词生成相同的键。
分组效率：
- 插入与查询操作都是 O(1)（常数时间复杂度），而排序操作是 O(k log k)，k 是字符串长度。
- 总时间复杂度为 O(n × k log k)，其中 n 是单词数量。

运行结果（以 ["eat", "tea", "tan", "ate", "nat", "bat"] 为例）：

分组结果: [['eat', 'tea', 'ate'], ['tan', 'nat'], ['bat']]

四、另一种实现：基于字母计数的哈希键

如果需要更高效的方法，尤其在处理超长字符串时，可以改用字母计数法：

def group_anagrams_by_count(words):
    """
    使用字母计数法实现异位词分组。
    
    参数：
        words (List[str]): 输入字符串列表。
    返回：
        List[List[str]]: 按字母异位词分组后的结果。
    """
    hash_table = defaultdict(list)

    for word in words:
        # 构建字母计数键（长度26的元组）
        count_key = [0] * 26
        for char in word:
            count_key[ord(char) - ord('a')] += 1  # 统计每个字母出现次数
        hash_table[tuple(count_key)].append(word)

    return list(hash_table.values())

# 示例用法
input_words = ["eat", "tea", "tan", "ate", "nat", "bat"]
grouped_anagrams = group_anagrams_by_count(input_words)
print("分组结果:", grouped_anagrams)