anagrams

这篇文章主要是描述一个单词的变体或者变换。

问题的描述:

在编程珠玑里面是这样的:

image

image

据说是百度的一个面试题,是这样描述的:

image

其实总结下问题描述其实是差不多的:给定一个字典(即单词序列),用户输入一个单词,求出字典中单词的变换?

一:

看到这个题目后,直觉是可能是这样的:求出输入单词的全部变换(假如单词的长度是n,则其全部变换有n!个。如果有相同的字母就不是n!了吧?),求出单词的变换后,判断每个变换是否在字典中。

例如对于输入abc,则其变换有3!=6种:abc、acb、bca、bac、cab、cba。然后在依次判断这6个单词(当然这里不是单词了,而是字符串)是否在字典中,如果在字典中则记录下来。

很明显这种思想的复杂度是比较高的,因为对于n稍微大点的话,n!是一个很可怕的递增过程,因此这个方法是不太可取的。

二:

考虑使用hash的方法。构造一个hash函数,该函数使得单词的变换具有相同的hash值。

可以构造这样的函数,给定一个字符串,其hash值是字符串中字母的有序排列。例如字符串cda对应的hash值是acd;zhang的hash值是aghnz,即是字母从小到大的排列。这样对于一个单词的变换其hash值是相同的。

有上面的介绍后可以根据下面的步骤来进行了:

1、根据输入单词求出其hash值,即将单词按字母从小到大进行排列。

2、遍历给定的字典,对于字典里的每个单词,求出其hash值,然后和上一步中求出的hash值进行比较,如果相等,那么这个单词就是输入单词的一个变换,否则不是。

当然上面的方法是可行的。不过时间复杂度是比较高的:

word_hash = hash(word); //如果使用快排,复杂度是nlgn

for(i=0; i<n; i++)//n

{

temp = hash(dic[i]); //nlgn

if(strcmp(temp, word_hash) == 0)

{

output   dic[i];

}

}

总的时间复杂度是n*nlgn(不知道算的正确不),当然,如果hash的时间复杂度降低的话还是很不错的。

通过上面可以知道其实可以提前求出字典中单词的hash值,然后再进行匹配的。这样可以有一个变化的方法:

利用c++中的mutilmap或者其他容器,将hash值和字典中的单词昨为一个pair保存在mutilmap中。pair的情况是:<hash(word), word>,其中hash(word)作为map的key,word作为value。

这样就可以遍历map进行判断了。当然也可以先对map进行排序,这样会更快点。

 

这大概就是这个题目的思路。

编程珠玑上有一些简单的介绍和一个程序实现;这本 STL.Tutorial.and.Reference.Guide 的第12~15章节都是分析了这个问题,不断的改进,是一个很详细的介绍,值得学习。

### 关于 `Group Anagrams` 的实现方法 #### 方法一:基于排序的哈希表 对于每一个字符串,先将其字符按照字典顺序排列得到一个新的字符串作为键值存入哈希表中。由于字母异位词经过这样的处理后会产生相同的键值,因此可以将具有相同键值的所有原始字符串收集起来形成最终的结果集[^1]。 ```cpp vector<vector<string>> groupAnagrams(vector<string>& strs) { unordered_map<string, vector<string>> mp; for (string& str : strs) { string key = str; sort(key.begin(), key.end()); mp[key].push_back(str); } vector<vector<string>> ans; for (auto it = mp.begin(); it != mp.end(); ++it) { ans.push_back(it->second); } return ans; } ``` 这种方法的时间复杂度主要取决于排序操作以及遍历输入列表的操作。如果n表示输入列表长度,k代表最长单词长度,则时间复杂度大约为O(n * k log k)。 #### 方法二:基于计数数组的哈希表 考虑到ASCII码范围内的字符数量有限(共26个小写字母),可以直接利用固定大小(26)的整型数组记录每个字符串内各个字符出现次数的情况,并以此构建唯一的key用于存储到hashmap当中去。这种方式避免了显式的字符串排序过程,在某些情况下可能会更高效一些。 ```cpp vector<vector<string>> groupAnagrams(vector<string>& strs) { unordered_map<string, vector<string>> mp; for (const auto& s : strs){ array<int, 26> counts{}; for(const char c:s){ counts[c-'a']++; } // 将counts转换成可作为key使用的字符串形式 string key = ""; for(auto count:counts){ key += "#"+to_string(count); } mp[key].emplace_back(s); } vector<vector<string>> res; for(auto& p:mp){ res.emplace_back(p.second); } return res; } ``` 此版本通过使用定长的频率分布向量代替直接对字符串进行排序的方式减少了不必要的计算开销,理论上能够提供更好的性能表现。 #### 方法三:质数相乘法 另一种巧妙的做法是给每个不同的字母分配一个独一无二的小质数值,之后把整个字符串看作是由这些质因数构成的大合数;这样只要两个串对应的积相等就说明它们互为变位词。不过这种思路虽然新颖有趣但在实际应用时效率未必占优,因为涉及到大数运算等问题。 ```cpp // 这里仅给出概念性的伪代码示意而非完整的解决方案 unordered_map<long long,vector<string>> map; for each word w do{ product=1; foreach character ch in w do{ product *= primes[ch]; //假设primes[]已经预先定义好并初始化完毕 } map[product].add(w); } return convert(map.values()); // 把map里的value部分转成题目要求的形式返回 ``` 上述三种方式各有特点,可以根据具体场景和个人偏好选择合适的一种来解决问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值