题目描述
难度:中等
所有 DNA 都由一系列缩写为 ‘A’,‘C’,‘G’ 和 ‘T’ 的核苷酸组成,例如:“ACGAATTCCG”。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。
编写一个函数来找出所有目标子串,目标子串的长度为 10,且在 DNA 字符串 s 中出现次数超过一次。
示例 1:
输入:s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"
输出:["AAAAACCCCC","CCCCCAAAAA"]
示例 2:
输入:s = "AAAAAAAAAAAAA"
输出:["AAAAAAAAAA"]
提示:
0 <= s.length <= 105
s[i] 为 'A'、'C'、'G' 或 'T'
题解分析
分析题目,得知要求:目标子串的长度为 10,且在 DNA 字符串 s 中出现次数超过一次;
对于字符串子串,在得知长度之后,我们可以使用一个长度为 10 的滑动窗口来遍历字符串;
由于需要确保子串出现次数超过一次,可以使用 HashMap 来保存每个子串,对于重复出现的子串,加入到 list 集合中;
此时需要注意一点,返回的 list 集合中,不能出现重复的子串,这一点观察示例 2 可以发现,因为题目要求的是在 DNA 字符串 s 中出现次数超过一次,不论超过几次,list 集合之中只添加一次;
对于重复添加的子串,由于我们是利用 HashMap 查重,可以使用 Map 的 value 属性作为重复添加的判断条件,将 value 属性设置为布尔类型,对于已经添加到 list 集合中的子串,我们将其对于的 value 设值为 true ,代表已经添加过了,这样就可以避免重复在 list 中添加了;
解题代码
// 利用大小为10的滑动窗口和hashMap 避免重复答案
public List<String> findRepeatedDnaSequences(String s) {
ArrayList