牛客题解 | 最优字符串对齐距离

题目

题目链接

最优字符串对齐距离(Optimal String Alignment Distance)是一种衡量两个字符串之间差异的指标,又称Levenshtein距离/OSA距离,其计算公式为:
D ( s 1 , s 2 ) = min ⁡ s 1 → s 2 ∑ i = 1 ∣ s 1 ∣ δ ( s 1 [ i ] , s 2 [ i ] ) D(s_1, s_2) = \min_{s_1 \to s_2} \sum_{i=1}^{|s_1|} \delta(s_1[i], s_2[i]) D(s1,s2)=s1s2mini=1s1δ(s1[i],s2[i])
其中, s 1 s_1 s1 s 2 s_2 s2是两个字符串, δ ( s 1 [ i ] , s 2 [ i ] ) \delta(s_1[i], s_2[i]) δ(s1[i],s2[i])是两个字符之间的距离。
这是一个经典动态规划问题,可以使用动态规划来实现。具体的动态规划思路如下:

  1. 初始化一个矩阵,矩阵的行数为source的长度+1,列数为target的长度+1,矩阵的元素初始化为0。
  2. 将矩阵的第一行和第一列填充为对应的索引值。
  3. 遍历矩阵的每一个元素,计算其值为删除、插入、替换和转置操作的最小值。
    D ( i , j ) = min ⁡ ( D ( i − 1 , j ) + 1 , D ( i , j − 1 ) + 1 , D ( i − 1 , j − 1 ) + δ ( s o u r c e [ i − 1 ] , t a r g e t [ j − 1 ] ) ) 如果  s o u r c e [ i − 1 ] = t a r g e t [ j − 2 ]  且  s o u r c e [ i − 2 ] = t a r g e t [ j − 1 ]  则  D ( i , j ) = min ⁡ ( D ( i , j ) , D ( i − 2 , j − 2 ) + 1 ) D(i, j) = \min(D(i-1, j) + 1, D(i, j-1) + 1, D(i-1, j-1) + \delta(source[i-1], target[j-1])) \quad \text{如果 } source[i-1] = target[j-2] \text{ 且 } source[i-2] = target[j-1] \text{ 则 } D(i, j) = \min(D(i, j), D(i-2, j-2) + 1) D(i,j)=min(D(i1,j)+1,D(i,j1)+1,D(i1,j1)+δ(source[i1],target[j1]))如果 source[i1]=target[j2]  source[i2]=target[j1]  D(i,j)=min(D(i,j),D(i2,j2)+1)
  4. 最后返回矩阵的最后一个元素的值。
本题的动态规划推导过程供读者自行思考。

标准代码如下

def OSA(source: str, target: str) -> int:
    source_len, target_len = len(source), len(target)

    # Initialize matrix with zeros
    osa_matrix = [[0] * (target_len + 1) for _ in range(source_len + 1)]

    # Fill the first row and first column with index values
    for j in range(1, target_len + 1):
        osa_matrix[0][j] = j
    for i in range(1, source_len + 1):
        osa_matrix[i][0] = i

    # Compute the OSA distance
    for i in range(1, source_len + 1):
        for j in range(1, target_len + 1):
            osa_matrix[i][j] = min(
                osa_matrix[i - 1][j] + 1,  # Deletion
                osa_matrix[i][j - 1] + 1,  # Insertion
                osa_matrix[i - 1][j - 1] + (1 if source[i - 1] != target[j - 1] else 0)  # Substitution
            )
            if i > 1 and j > 1 and source[i - 1] == target[j - 2] and source[i - 2] == target[j - 1]:
                osa_matrix[i][j] = min(osa_matrix[i][j], osa_matrix[i - 2][j - 2] + 1)  # Transposition

    return osa_matrix[-1][-1]
### 网1001题字符串展开算法实现 #### 题目解析 题目要求对给定的字符串按照特定规则进行扩展。具体来说,输入中的连字符 `-` 表示一段连续范围内的字符或数字需要被替换为其完整的序列形式。例如 `a-c` 应该转换为 `abc`。 根据已知条件[^2]和示例数据[^3],可以总结如下规则: - 如果两个字母之间存在连字符,则按 ASCII 值从小到大填充中间缺失的部分。 - 数字之间的连字符同样适用上述逻辑。 - 连续多个连字符只保留第一个作为分隔符。 - 扩展部分可能重复多次,由参数控制其重复次数。 以下是基于这些规则的一种通用解决方案: --- #### 解决方案 ```cpp #include <iostream> #include <string> using namespace std; // 判断是否为字母 bool isLetter(char c) { return (c >= 'A' && c <= 'Z') || (c >= 'a' && c <= 'z'); } // 判断是否为数字 bool isDigit(char c) { return c >= '0' && c <= '9'; } // 展开函数 void expandString(int p1, int p2, int p3, const string& inputStr) { string result; size_t i = 0; while (i < inputStr.length()) { char startChar = inputStr[i]; // 跳过当前字符直到找到下一个有效位置 if (!isLetter(startChar) && !isDigit(startChar)) { result += startChar; ++i; continue; } // 查找是否有 '-' 并定位结束字符 bool hasDash = false; char endChar = '\0'; for (size_t j = i + 1; j < inputStr.length(); ++j) { if (inputStr[j] == '-') { hasDash = true; continue; } else if ((hasDash && (isLetter(inputStr[j]) || isDigit(inputStr[j])))) { endChar = inputStr[j]; break; } } if (endChar != '\0') { // 存在合法区间 if (startChar <= endChar) { for (char k = startChar; k <= endChar; ++k) { result.append(p2, k); // 添加指定数量次 } } else { for (char k = startChar; k >= endChar; --k) { result.append(p2, k); } } // 移动指针跳过处理过的部分 i += distance(result.end() - p2 * abs(endChar - startChar)); } else { result += startChar; } ++i; } cout << result.substr(0, min((int)p1 * p3, (int)result.size())) << endl; } ``` --- #### 实现细节说明 1. **辅助判断方法** 定义了两个简单的布尔型函数用于检测字符是否属于字母或者数字类别[^1]。这有助于后续区分不同类型的子串并分别处理它们的行为模式。 2. **核心循环结构** 主要通过外层循环逐一遍历整个原始字符串,并利用内部嵌套查找机制来识别潜在的目标区域及其边界值。 3. **动态调整输出长度** 结合三个外部传入整数变量 \(p_1\),\(p_2\), 和 \(p_3\) 来决定最终结果截取片段的具体尺寸以及每单位元素复制频率。 4. **异常情况考虑** 对于不构成任何可操作区间的单个独立符号直接附加至累积缓冲区内;同时确保不会因为非法索引访问引发崩溃风险。 --- ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值