1、题目:在字符串中找出第一个只出现一次的字符。如输入“abaccdeff”,则输出‘b’。
直观解法是从头到尾扫描字符串中每个字符。当访问到某字符时拿这个字符和后面的每个字符相比较,如果在后面没有发现重复的字符,则其就是只出现一次的字符。如果字符串有n个字符,每个字符可能要与后面的O(n)个字符比较,故时间复杂度为O(n^2)。
解法:
1)我们可以统计每个字符在字符串中出现的次数,用一个容器来存放它。此容器作用是把一个字符映射成一个数字。因此我们定义哈希表的键值(key)是字符,而值(value)是该字符出现的次数。
同时需要从头开始扫描字符串两次,第一次是每扫描到一个字符就在哈希表的对应项中把次数加1。第二次是每扫描到一个字符就能从哈希表中得到该字符出现的次数。
2)C++的标准模板库中没有实现哈希表。字符是一个长度为8的数据类型,因此总共有256种可能,我们可以创建一个长度为256的数组,每个字母根据其ASCII码值作为数组的下标对应数组的一个数字,而数组值存储的是每个字符出现的次数。这样就创建了一个大小为256,一字符ASCII码为键值的哈希表。
3)第一次扫描时,在哈希表中更新一个字符出现的次数的时间是O(1)。若字符串长度为n,则第一次扫描时间复杂度为O(n)。第二次扫描时,同样O(1)能读出一个字符出现的次数,故时间复杂度为O(n)。所以总的时间复杂度是O(n)。由于需要一个包含256个字符的辅助数组,它的大小是1k。由于此数组大小为常数,故空间复杂度是O(1)。
char FirstNotRepeatingChar(char* pString)
{
if(pString == NULL)
return '\0';
const int tableSize = 256;
unsigned int hashTable[tableSize];
for(unsigned int i=0; i<tableSize; ++i)
hashTable[i] = 0;
char* pHashKey = pString;
while(*(pHashKey) != '\0')
hashTable[*(pHashKey++)] ++;
pHashKey = pString;
while(*(pHashKey) != '\0')
{
if(hashTable[*pHashKey] == 1)
return *pHashKey;
pHashKey++;
}
return '\0';
}
2、本题扩展:
上例中之所以把哈希表大小设为256,是因为字符是8个bit的类型,总共有256个字符。但实际上字符不只是256个,还有中文,若题目要求考虑汉字,怎么办?
3、相关题目:
定义一个函数,输入两个字符串,从第一个字符串中删除在第二个字符串中出现过的所有字符。
例如从第一个字符串“we are students.”中删除在第二个字符串“aeiou”中出现过的字符得到的结果是“w r stdnts.”。
我们可以创建一个用数组实现的简单哈希表来存储第二个字符串。这样从头到尾扫描第一个字符串的每一个字符时,用O(1)时间就能判断出该字符是不是在第二个字符中。若第一个字符串的长度是n,则总的时间复杂度是O(n)。
4、相关题目:
定义一个函数,删除字符串中所有重复出现的字符。
例如输入“google”,删除重复出现的字符后的结果是“gole”。
我们可以创建一个用布尔型数组实现的简单哈希表。数组中的元素的意义是其下标看做ASCII码后对应的字母在字符串中是否已经出现。
我们先把数组中所有的元素都设为false。以“google”为例,当扫描第一个g时,g的ASCII码是103,那么我们把数组中下标为103的元素设为true。当扫描到第二个g时,发现数组中下标为103的元素的值为true,就直到g在前面已经出现过了。即用O(1)时间就能判断出每个字符是否已经在前面出现过。若字符串长度是n,则总时间复杂度是O(n)。
5、相关题目:
在英语中,如果两个单词中出现的字母相同,并且每个字母出现的次数也相同,那么这两个单词互为变位词。例如silent与listen、evil与live等互为变位词。完成一个函数,判断输入的两个字符串是不是互为变位词。
我们可以创建一个用数组实现的简单哈希表,用来统计字符串中每个字符出现的次数。当扫描到第一个字符串中的每个字符时,为哈希表对应的项的值加1。接下来扫描第二个字符串,扫描到每个字符时,为哈希表对应的项的值减去1。如果扫描完第二个字符串后,哈希表中所有的值都是0,那么这两个字符串就互为变位词。
6、举一反三:
如果需要判断多个字符是不是在某个字符串里出现过或者统计多个字符在某个字符串中出现的次数,可以考虑给予数组创建一个简单的哈希表。这样可以用很小的空间消耗换来时间效率的提升。