字符串唯一字符检测算法解析 - interactive-coding-challenges项目实战-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00365/article/details/148359983

字符串唯一字符检测算法解析 - interactive-coding-challenges项目实战

interactive-coding-challenges 120+ interactive Python coding interview challenges (algorithms and data structures). Includes Anki flashcards. 项目地址: https://gitcode.com/gh_mirrors/in/interactive-coding-challenges

问题描述

我们需要实现一个算法来判断一个字符串中的所有字符是否都是唯一的。这是编程面试中常见的基础问题，考察对字符串处理和基本数据结构的理解。

约束条件

在解决这个问题之前，我们需要明确几个前提条件：

字符串使用ASCII编码（而非Unicode）
算法区分大小写（'A'和'a'被视为不同字符）
可以使用额外的数据结构
假设字符串可以完全放入内存中

测试用例

为了验证算法的正确性，我们需要考虑以下测试场景：

输入None → 预期返回False
空字符串'' → 预期返回True
'foo' → 预期返回False（因为有两个'o'）
'bar' → 预期返回True（所有字符都唯一）

解决方案一：集合与长度比较法

算法思路

集合(Set)是Python中一种无序且不重复的元素集合。利用这一特性，我们可以：

将字符串转换为集合（自动去重）
比较集合长度和原字符串长度
- 如果相等，说明所有字符都是唯一的
- 如果不相等，说明有重复字符

代码实现

class UniqueCharsSet(object):
    def has_unique_chars(self, string):
        if string is None:
            return False
        return len(set(string)) == len(string)

复杂度分析

时间复杂度：O(n)
- 创建集合需要遍历整个字符串
空间复杂度：O(n)
- 需要额外空间存储集合

优缺点

优点：

实现简洁，利用Python内置特性
代码可读性强

缺点：

需要额外空间存储集合
对于极长字符串可能不够高效

解决方案二：哈希映射查找法

算法思路

这种方法通过显式地跟踪已出现的字符：

初始化一个空集合
遍历字符串中的每个字符
- 如果字符已在集合中，立即返回False
- 否则将字符加入集合
如果遍历完成没有发现重复，返回True

代码实现

class UniqueChars(object):
    def has_unique_chars(self, string):
        if string is None:
            return False
        chars_set = set()
        for char in string:
            if char in chars_set:
                return False
            else:
                chars_set.add(char)
        return True

复杂度分析

时间复杂度：O(n)
- 最坏情况下需要遍历整个字符串
空间复杂度：O(n)
- 需要存储已出现的字符

优化思路

由于题目说明使用ASCII字符集，我们可以进一步优化：

使用固定大小的数组（128或256）代替集合
直接使用字符的ASCII值作为索引
这样可以减少哈希计算的开销

解决方案三：原地检测法

算法思路

当不允许使用额外数据结构时，可以采用原地检测：

遍历字符串中的每个字符
对于每个字符，检查它在字符串中出现的次数
- 如果出现次数大于1，返回False
如果所有字符都只出现一次，返回True

代码实现

class UniqueCharsInPlace(object):
    def has_unique_chars(self, string):
        if string is None:
            return False
        for char in string:
            if string.count(char) > 1:
                return False
        return True

复杂度分析

时间复杂度：O(n²)
- 对于每个字符，count()方法需要遍历整个字符串
空间复杂度：O(1)
- 不需要额外存储空间

性能考虑

这种方法虽然节省了空间，但时间复杂度较高，不适合处理长字符串。在实际应用中，通常优先考虑时间效率而非空间效率。

单元测试

为了确保各种实现都正确，我们编写了统一的测试用例：

import unittest

class TestUniqueChars(unittest.TestCase):
    def test_unique_chars(self, func):
        self.assertEqual(func(None), False)
        self.assertEqual(func(''), True)
        self.assertEqual(func('foo'), False)
        self.assertEqual(func('bar'), True)
        print('Success: test_unique_chars')