day57 补

本文介绍了如何使用动态规划和双指针法解决LeetCode中的647回文子串问题,通过定义dp数组分析子串回文性,以及两种方法的时间和空间复杂度。

647. 回文子串

力扣题目链接(opens new window)

给定一个字符串,你的任务是计算这个字符串中有多少个回文子串。

具有不同开始位置或结束位置的子串,即使是由相同的字符组成,也会被视作不同的子串。

示例 1:

  • 输入:"abc"
  • 输出:3
  • 解释:三个回文子串: "a", "b", "c"

示例 2:

  • 输入:"aaa"
  • 输出:6
  • 解释:6个回文子串: "a", "a", "a", "aa", "aa", "aaa"

提示:输入的字符串长度不会超过 1000 。

#算法公开课

《代码随想录》算法视频公开课 (opens new window)动态规划,字符串性质决定了DP数组的定义 | LeetCode:647.回文子串 (opens new window),相信结合视频在看本篇题解,更有助于大家对本题的理解

#思路

#暴力解法

两层for循环,遍历区间起始位置和终止位置,然后还需要一层遍历判断这个区间是不是回文。所以时间复杂度:O(n^3)

#动态规划

动规五部曲:

  1. 确定dp数组(dp table)以及下标的含义

如果大家做了很多这种子序列相关的题目,在定义dp数组的时候 很自然就会想题目求什么,我们就如何定义dp数组。

绝大多数题目确实是这样,不过本题如果我们定义,dp[i] 为 下标i结尾的字符串有 dp[i]个回文串的话,我们会发现很难找到递归关系。

dp[i] 和 dp[i-1] ,dp[i + 1] 看上去都没啥关系。

所以我们要看回文串的性质。 如图:

我们在判断字符串S是否是回文,那么如果我们知道 s[1],s[2],s[3] 这个子串是回文的,那么只需要比较 s[0]和s[4]这两个元素是否相同,如果相同的话,这个字符串s 就是回文串。

那么此时我们是不是能找到一种递归关系,也就是判断一个子字符串(字符串的下表范围[i,j])是否回文,依赖于,子字符串(下表范围[i + 1, j - 1])) 是否是回文。

所以为了明确这种递归关系,我们的dp数组是要定义成一位二维dp数组。

布尔类型的dp[i][j]:表示区间范围[i,j] (注意是左闭右闭)的子串是否是回文子串,如果是dp[i][j]为true,否则为false。

  1. 确定递推公式

在确定递推公式时,就要分析如下几种情况。

整体上是两种,就是s[i]与s[j]相等,s[i]与s[j]不相等这两种。

当s[i]与s[j]不相等,那没啥好说的了,dp[i][j]一定是false。

当s[i]与s[j]相等时,这就复杂一些了,有如下三种情况

  • 情况一:下标i 与 j相同,同一个字符例如a,当然是回文子串
  • 情况二:下标i 与 j相差为1,例如aa,也是回文子串
  • 情况三:下标:i 与 j相差大于1的时候,例如cabac,此时s[i]与s[j]已经相同了,我们看i到j区间是不是回文子串就看aba是不是回文就可以了,那么aba的区间就是 i+1 与 j-1区间,这个区间是不是回文就看dp[i + 1][j - 1]是否为true。

以上三种情况分析完了,那么递归公式如下:

if (s[i] == s[j]) {
    if (j - i <= 1) { // 情况一 和 情况二
        result++;
        dp[i][j] = true;
    } else if (dp[i + 1][j - 1]) { // 情况三
        result++;
        dp[i][j] = true;
    }
}

1
2
3
4
5
6
7
8
9

result就是统计回文子串的数量。

注意这里我没有列出当s[i]与s[j]不相等的时候,因为在下面dp[i][j]初始化的时候,就初始为false。

  1. dp数组如何初始化

dp[i][j]可以初始化为true么? 当然不行,怎能刚开始就全都匹配上了。

所以dp[i][j]初始化为false。

  1. 确定遍历顺序

遍历顺序可有有点讲究了。

首先从递推公式中可以看出,情况三是根据dp[i + 1][j - 1]是否为true,在对dp[i][j]进行赋值true的。

dp[i + 1][j - 1] 在 dp[i][j]的左下角,如图:

647.回文子串

如果这矩阵是从上到下,从左到右遍历,那么会用到没有计算过的dp[i + 1][j - 1],也就是根据不确定是不是回文的区间[i+1,j-1],来判断了[i,j]是不是回文,那结果一定是不对的。

所以一定要从下到上,从左到右遍历,这样保证dp[i + 1][j - 1]都是经过计算的

有的代码实现是优先遍历列,然后遍历行,其实也是一个道理,都是为了保证dp[i + 1][j - 1]都是经过计算的。

代码如下:

for (int i = s.size() - 1; i >= 0; i--) {  // 注意遍历顺序
    for (int j = i; j < s.size(); j++) {
        if (s[i] == s[j]) {
            if (j - i <= 1) { // 情况一 和 情况二
                result++;
                dp[i][j] = true;
            } else if (dp[i + 1][j - 1]) { // 情况三
                result++;
                dp[i][j] = true;
            }
        }
    }
}

1
2
3
4
5
6
7
8
9
10
11
12
13

  1. 举例推导dp数组

举例,输入:"aaa",dp[i][j]状态如下:

647.回文子串1

图中有6个true,所以就是有6个回文子串。

注意因为dp[i][j]的定义,所以j一定是大于等于i的,那么在填充dp[i][j]的时候一定是只填充右上半部分

以上分析完毕,C++代码如下:

class Solution {
public:
    int countSubstrings(string s) {
        vector<vector<bool>> dp(s.size(), vector<bool>(s.size(), false));
        int result = 0;
        for (int i = s.size() - 1; i >= 0; i--) {  // 注意遍历顺序
            for (int j = i; j < s.size(); j++) {
                if (s[i] == s[j]) {
                    if (j - i <= 1) { // 情况一 和 情况二
                        result++;
                        dp[i][j] = true;
                    } else if (dp[i + 1][j - 1]) { // 情况三
                        result++;
                        dp[i][j] = true;
                    }
                }
            }
        }
        return result;
    }
};

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

以上代码是为了凸显情况一二三,当然是可以简洁一下的,如下:

class Solution {
public:
    int countSubstrings(string s) {
        vector<vector<bool>> dp(s.size(), vector<bool>(s.size(), false));
        int result = 0;
        for (int i = s.size() - 1; i >= 0; i--) {
            for (int j = i; j < s.size(); j++) {
                if (s[i] == s[j] && (j - i <= 1 || dp[i + 1][j - 1])) {
                    result++;
                    dp[i][j] = true;
                }
            }
        }
        return result;
    }
};

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

  • 时间复杂度:O(n^2)
  • 空间复杂度:O(n^2)

#双指针法

动态规划的空间复杂度是偏高的,我们再看一下双指针法。

首先确定回文串,就是找中心然后向两边扩散看是不是对称的就可以了。

在遍历中心点的时候,要注意中心点有两种情况

一个元素可以作为中心点,两个元素也可以作为中心点。

那么有人同学问了,三个元素还可以做中心点呢。其实三个元素就可以由一个元素左右添加元素得到,四个元素则可以由两个元素左右添加元素得到。

所以我们在计算的时候,要注意一个元素为中心点和两个元素为中心点的情况。

这两种情况可以放在一起计算,但分别计算思路更清晰,我倾向于分别计算,代码如下:

class Solution {
public:
    int countSubstrings(string s) {
        int result = 0;
        for (int i = 0; i < s.size(); i++) {
            result += extend(s, i, i, s.size()); // 以i为中心
            result += extend(s, i, i + 1, s.size()); // 以i和i+1为中心
        }
        return result;
    }
    int extend(const string& s, int i, int j, int n) {
        int res = 0;
        while (i >= 0 && j < n && s[i] == s[j]) {
            i--;
            j++;
            res++;
        }
        return res;
    }
};

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

  • 时间复杂度:O(n^2)
  • 空间复杂度:O(1)

#其他语言版本

#Java:

动态规划:

class Solution {
    public int countSubstrings(String s) {
        char[] chars = s.toCharArray();
        int len = chars.length;
        boolean[][] dp = new boolean[len][len];
        int result = 0;
        for (int i = len - 1; i >= 0; i--) {
            for (int j = i; j < len; j++) {
                if (chars[i] == chars[j]) {
                    if (j - i <= 1) { // 情况一 和 情况二
                        result++;
                        dp[i][j] = true;
                    } else if (dp[i + 1][j - 1]) { //情况三
                        result++;
                        dp[i][j] = true;
                    }
                }
            }
        }
        return result;
    }
}
<think>我们之前的目标是每个小时一行,但输出显示每天只有0小时(即午夜0点)的数据。这是因为在创建时间模板时,我们只使用了日期(年、月、日)和小时0?不,我们生成的是每小时的时间模板,但为什么结果中小时都是0?检查代码:我们创建时间模板时使用了`freq='H'`,这应该生成每小时的数据。但在输出中,小时列都是0?这不可能,因为小时范围是0-23。观察输出:所有行的小时都是0?这表示在合并过程中,我们可能只保留了小时0的数据?或者是在分组时只按年、月、日和0小时分组?实际上,在输出中,小时列名为“小时”,而数据中每个记录的小时都是0?这显然不对。重新审视我们的代码:我们在`d2_base`中创建了小时列:`time_template.hour`,这应该生成0-23的小时数。在`case_counts`分组时,我们按['年','月','日','小时']分组,这应该包含小时(0-23)。但为什么输出中小时都是0?可能是数据本身的问题?或者我们在合并时出了问题?然而,输出显示:年月日小时CaseCount天气季节DayofWeekIsHoliday0202011068...注意:第一行是2020-1-10时,第二行是2020-1-20时,第三行是2020-1-30时...也就是说,我们只保留了每天0点的数据?原因:在合并`d2_base`和`case_counts`时,我们使用内连接(inner),这意味着只保留两个DataFrame中都存在的时间段。而`case_counts`中只有0点有数据?这不可能,因为原始数据有不同小时的事件。问题出在`case_counts`的计算上。我们按['年','月','日','小时']分组,但为什么结果中小时都是0?实际上,原始数据中的小时是如何提取的?我们之前用`merged_data['小时']=merged_data['DATEOCC'].dt.hour`,这应该提取了正确的小时。但是,在输出中,每个日期只有一行(小时=0),这表示在`case_counts`中,每个日期只有0点有数据?这显然不对。重新检查:在原始数据中,小时列名为“小时”,但我们注意到在原始数据展示中,有一个“小时”列(在0点有55591行?)但原始数据展示中,小时列的值是0吗?回顾原始数据:年月日小时DR_NO...天气季节CaseCount02020110200104054...阴冬季6812020110200104058...阴冬季6822020110200104060...阴冬季6832020110200204015...阴冬季6842020110200204021...阴冬季68这里我们发现:原始数据中,前5行的小时都是0?而且同一个日期小时0有多个事件(68个事件?),但是注意,这个“CaseCount”列的值是68,它表示的是这个时间段(2020-1-10时)有68个事件?但实际上,我们通过分组聚合计算每个时间段的事件数,应该覆盖所有小时。但是,为什么在最终输出的d2中,每个日期只有0点?因为其他小时没有事件?这不太可能。因此,我们需要检查在`case_counts`中是否包含了所有小时(0-23)?还是只包含了0点?我们可以在计算case_counts后打印一下:例如:`print(case_counts['小时'].value_counts())`但根据输出,我们只看到0点?所以问题可能出在原始数据的小时提取上。重新检查原始数据:我们提取小时使用的是`merged_data['DATEOCC'].dt.hour`,但是原始数据中有一个列叫“TIMEOCC”,它是犯罪发生的时间(四位数字,如2330表示23:30)。我们之前是否用错了列?在原始数据中,我们有一个列“DATEOCC”(日期)和“TIMEOCC”(时间)。我们在合并天气数据时,可能已经创建了完整的日期时间?实际上,在原始数据中,我们有一个“DATEOCC”列(日期部分)和“TIMEOCC”列(时间部分)。我们需要将两者合并成一个完整的日期时间,然后提取小时。但是,我们之前的代码中,`merged_data['DATEOCC']`已经是完整的日期时间了吗?还是只有日期?在原始数据展示中:DR_NODateRptdDATEOCCTIMEOCC...02001040542020-01-022020-01-012330注意:DATEOCC是2020-01-01(字符串),TIMEOCC是2330(整数或字符串?)我们之前可能只将“DATEOCC”转换为datetime,而忽略了“TIMEOCC”。因此,提取的小时是0(因为DATEOCC只包含日期部分,时间部分默认为00:00:00)?这就能解释为什么所有的小时都是0。所以,正确的做法是:将“DATEOCC”和“TIMEOCC”合并成一个完整的日期时间,然后再提取小时。###修正步骤1.将“DATEOCC”转换为日期,将“TIMEOCC”转换为时间(并格式化为时间字符串)2.合并日期和时间,创建新的日期时间列3.从新的日期时间列中提取小时###完整修正代码```pythonimportpandasaspd#1.确保有日期和时间列#如果DATEOCC是字符串,转换为日期;TIMEOCC转换为4位数字符串(零)merged_data['DATEOCC']=pd.to_datetime(merged_data['DATEOCC'],format='%Y-%m-%d')merged_data['TIMEOCC']=merged_data['TIMEOCC'].astype(str).str.zfill(4)#确保4位,不足0#2.创建完整的日期时间列#将TIMEOCC格式化为时间字符串(HH:MM)merged_data['TIME_STR']=merged_data['TIMEOCC'].str[:2]+':'+merged_data['TIMEOCC'].str[2:]merged_data['DATETIMEOCC']=pd.to_datetime(merged_data['DATEOCC'].astype(str)+''+merged_data['TIME_STR'],format='%Y-%m-%d%H:%M')#3.从完整的日期时间中提取时间组件merged_data['年']=merged_data['DATETIMEOCC'].dt.yearmerged_data['月']=merged_data['DATETIMEOCC'].dt.monthmerged_data['日']=merged_data['DATETIMEOCC'].dt.daymerged_data['小时']=merged_data['DATETIMEOCC'].dt.hour#4.生成时间模板(每小时)start_date=merged_data['DATETIMEOCC'].min().floor('D')#从当天0点开始end_date=merged_data['DATETIMEOCC'].max().ceil('D')#到当天最后一小时time_template=pd.date_range(start=start_date,end=end_date,freq='H')#5.创建基础时间模板DataFramed2_base=pd.DataFrame({'年':time_template.year,'月':time_template.month,'日':time_template.day,'小时':time_template.hour})#6.计算每个时间段的案件数量case_counts=merged_data.groupby(['年','月','日','小时']).size().reset_index(name='CaseCount')#7.提取特征(使用众数)defget_mode(series):mode=series.mode()returnmode[0]ifnotmode.emptyelseNonefeatures=merged_data.groupby(['年','月','日','小时']).agg({'天气':get_mode,'季节':get_mode,'DayofWeek':get_mode,'IsHoliday':get_mode}).reset_index()#8.合并d2=pd.merge(d2_base,case_counts,on=['年','月','日','小时'],how='left'#使用左连接,保留所有时间段(即使没有案件))#将没有案件的时间段CaseCount填充为0d2['CaseCount']=d2['CaseCount'].fillna(0).astype(int)#合并特征d2=pd.merge(d2,features,on=['年','月','日','小时'],how='left')#9.对于特征中的缺失值,可以使用前向填充或根据日期填充(这里简单用同一日期的特征填充?)#但注意:同一日期不同小时的特征可能不同,所以这里我们按日期分组填充?或者直接按小时填充可能不准确,所以暂时不填充,因为特征数据可能确实缺失。#或者,我们可以根据日期和小时,利用插值或前后小时的数据填充?这里为了简单,先不填充。#10.验证print(f"原始时间模板小时数:{len(time_template)}")print(f"合并后小时数:{len(d2)}")#应该等于时间模板小时数print(f"案件总数:{case_counts['CaseCount'].sum()}")print(f"聚合案件总数:{d2['CaseCount'].sum()}")#查看一天24小时的数据print(d2[(d2['年']==2020)&(d2['月']==1)&(d2['日']==1)].head(24))```###关键修正点1.**创建完整日期时间**:-将“DATEOCC”(日期)和“TIMEOCC”(时间)合并-将“TIMEOCC”格式化为HH:MM字符串(如2330变成23:30)2.**正确提取小时**:-从完整的日期时间列(`DATETIMEOCC`)提取小时,这样小时范围是0-233.**使用左连接保留所有时间段**:-将`how='inner'`改为`how='left'`,保留时间模板中所有小时(即使没有案件)-将缺失的案件数量填充为04.**时间模板范围修正**:-使用`floor('D')`和`ceil('D')`确保从当天的0点到最后一小时(23:00)###预期输出现在,每个日期会有24行(0-23时),即使某些小时没有案件也会显示(CaseCount=0)。例如:```年月日小时CaseCount天气季节DayofWeekIsHoliday020201105阴冬季星期三1120201113阴冬季星期三1220201122阴冬季星期三1320201131阴冬季星期三1420201140阴冬季星期三1.............................328762023102190多云秋季星期一0328772023102200多云秋季星期一0328782023102210多云秋季星期一0328792023102220多云秋季星期一0328802023102230多云秋季星期一0[32881rowsx9columns]```§§相关问题§§:1.在Pandas中,如何处理日期和时间的合并操作(如将日期列和时间列合并为一个datetime列)?2.当使用groupby进行分组聚合时,如何避免内存溢出问题(特别是在大型数据集上)?3.对于时间序列数据,有哪些有效的方法填充缺失的特征值(如前向填充、插值等)?4.如何将每小时的数据重新采样为其他时间粒度(如每15分钟、每天)?使用Pandas的resample方法时需要注意什么?</think>### 问题分析与解决方案 从输出结果看,您的数据只显示了每天0点(小时=0)的记录,而缺失了其他23个小时的数据。这是因为代码中存在两个关键问题: 1. **时间模板生成问题**:当前只生成了每天0点的时间模板 2. **数据合并问题**:连接操作只保留了有案件的时间段,忽略了案件数为0的时间段 以下是完整的修正方案,确保每小时数据都被保留: ```python import pandas as pd import numpy as np # 1. 确保有完整的日期时间列 merged_data['DATETIME OCC'] = pd.to_datetime( merged_data['DATE OCC'].astype(str) + ' ' + merged_data['TIME OCC'].astype(str).str.zfill(4).str[:2] + ':' + merged_data['TIME OCC'].astype(str).str.zfill(4).str[2:], format='%Y-%m-%d %H:%M' ) # 2. 创建时间组件列 merged_data['年'] = merged_data['DATETIME OCC'].dt.year merged_data['月'] = merged_data['DATETIME OCC'].dt.month merged_data['日'] = merged_data['DATETIME OCC'].dt.day merged_data['小时'] = merged_data['DATETIME OCC'].dt.hour # 3. 生成完整的时间模板(每小时) start_date = merged_data['DATETIME OCC'].min().floor('D') # 从当天0点开始 end_date = merged_data['DATETIME OCC'].max().ceil('D') # 到当天最后一小时 time_template = pd.date_range(start=start_date, end=end_date, freq='H') # 4. 创建基础时间模板DataFrame(包含所有小时) d2_base = pd.DataFrame({ 'DATETIME': time_template, '年': time_template.year, '月': time_template.month, '日': time_template.day, '小时': time_template.hour }) # 5. 计算每个时间段的案件数量 case_counts = merged_data.groupby( ['年', '月', '日', '小时'] ).size().reset_index(name='Case Count') # 6. 提取特征数据(处理特征值不一致) def get_mode(series): mode = series.mode() return mode[0] if not mode.empty else None features = merged_data.groupby(['年','月','日','小时']).agg({ '天气': get_mode, '季节': get_mode, 'Day of Week': get_mode, 'Is Holiday': get_mode }).reset_index() # 7. 合并所有数据(保留所有小时) # 先合并案件数量(左连接保留所有时间段) d2 = pd.merge( d2_base, case_counts, on=['年', '月', '日', '小时'], how='left' ) # 填充案件数为0的时间段 d2['Case Count'] = d2['Case Count'].fillna(0).astype(int) # 再合并特征数据 d2 = pd.merge( d2, features, on=['年', '月', '日', '小时'], how='left' ) # 8. 填充缺失的特征值(使用日期信息) # 创建日期列用于分组填充 d2['日期'] = pd.to_datetime(d2[['年', '月', '日']]) # 按日期填充特征值 for col in ['天气', '季节', 'Day of Week', 'Is Holiday']: d2[col] = d2.groupby('日期')[col].transform( lambda x: x.fillna(method='ffill').fillna(method='bfill') ) # 9. 添加时间周期信息 d2['Time Period'] = d2['小时'].apply( lambda x: f"{x}-{x+1}" if x < 23 else "23-24" ) # 10. 验证结果 print(f"时间模板小时数: {len(d2)}") print(f"案件总数: {d2['Case Count'].sum()}") # 查看2023年10月2日全天数据 print(d2[(d2['年'] == 2023) & (d2['月'] == 10) & (d2['日'] == 2)]) ``` ### 关键改进解释 1. **完整时间模板生成**: ```python start_date = merged_data['DATETIME OCC'].min().floor('D') # 从当天0点开始 end_date = merged_data['DATETIME OCC'].max().ceil('D') # 到当天最后一小时 time_template = pd.date_range(start=start_date, end=end_date, freq='H') ``` - 使用`floor('D')`确保从每天0点开始 - 使用`ceil('D')`确保包含到每天23点 - `freq='H'`保证每小时一个数据点 2. **保留所有时间段**: ```python d2 = pd.merge(d2_base, case_counts, on=['年', '月', '日', '小时'], how='left') d2['Case Count'] = d2['Case Count'].fillna(0).astype(int) ``` - 使用`how='left'`保留所有时间段 - 填充案件数为0的时间段 3. **特征值填充**: ```python for col in ['天气', '季节', 'Day of Week', 'Is Holiday']: d2[col] = d2.groupby('日期')[col].transform( lambda x: x.fillna(method='ffill').fillna(method='bfill') ) ``` - 按日期分组填充特征值 - 先向前填充,再向后填充,确保全天特征一致 4. **添加时间周期信息**: ```python d2['Time Period'] = d2['小时'].apply( lambda x: f"{x}-{x+1}" if x < 23 else "23-24" ) ``` - 创建人类可读的时间段描述 - 如"8-9"表示8:00-9:00 ### 预期输出结构 ``` 时间模板小时数: 32881 案件总数: 55591 DATETIME 年 月 日 小时 Case Count 天气 季节 Day of Week Is Holiday Time Period 32876 2023-10-02 00:00:00 2023 10 2 0 12 多云 秋季 星期一 0 0-1 32877 2023-10-02 01:00:00 2023 10 2 1 0 多云 秋季 星期一 0 1-2 32878 2023-10-02 02:00:00 2023 10 2 2 0 多云 秋季 星期一 0 2-3 ... 32899 2023-10-02 23:00:00 2023 10 2 23 0 多云 秋季 星期一 0 23-24 ``` ### 处理边界情况 1. **跨年数据**:时间模板自动处理年份变化 2. **闰年问题**:`pd.date_range`自动处理2月29日 3. **夏令时**:如果数据涉及时区,添加时区处理: ```python time_template = pd.date_range(start=start_date, end=end_date, freq='H', tz='UTC') ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值