字符串按相似度排序

这篇博客详细介绍了如何使用动态规划实现计算两个字符串之间的Levenshtein距离,并利用该算法进行字符串排序。通过一个名为`YxObjectLessThan`的比较结构体,将排序逻辑应用于一个数据列表,使得列表中的元素根据其与目标字符串的相似度进行升序排列。这种方法在信息检索和文本处理中有着广泛的应用。

字符串按相似度排序

int calcDistance(const QString& source, const QString& target)
{
    int n = source.length();
    int m = target.length();

    if (m == 0) return n;
    if (n == 0) return m;

    QVector <QVector <int>> matrix(n + 1);
    for (int i = 0; i <= n; i++) matrix[i].resize(m + 1);
    for (int i = 1; i <= n; i++) matrix[i][0] = i;
    for (int i = 1; i <= m; i++) matrix[0][i] = i;

    for (int i = 1; i <= n; i++)
    {
        const QChar si = source.at(i - 1);

        for (int j = 1; j <= m; j++)
        {
            const QChar dj = target.at(j - 1);
            int cost;

            if (si == dj)
                cost = 0;
            else
                cost = 1;

            const int above = matrix[i - 1][j] + 1;
            const int left = matrix[i][j - 1] + 1;
            const int diag = matrix[i - 1][j - 1] + cost;
            matrix[i][j] = std::min(above, std::min(left, diag));
        }
    }

    return matrix[n][m];
}

struct YxObjectLessThan {
    QString target;
    YxObjectLessThan(const QString& target_) {
        target = target_;
    }
    bool operator()(const QVariantMap& a, const QVariantMap& b) const {
        QString na = a.value("yxmc", "").toString();
        QString nb = b.value("yxmc", "").toString();
        int da = calcDistance(na, target);
        int db = calcDistance(nb, target);
        return da < db;
    }
};

//用法
std::sort(m_dataList.begin(), m_dataList.end(), YxObjectLessThan(val));

<think>好的,用户想了解如何计算或评估两个字符串之间的相似度,特别是具体的算法、比较方法和实现方式。首先,我需要回忆常见的字符串相似度算法,比如Levenshtein编辑距离、Jaro-Winkler、余弦相似度等。根据提供的引用,用户已经提到了Levenshtein算法,所以可能需要详细解释这个,同时补充其他方法。 用户可能的应用场景可能包括拼写检查、 plagiarism检测或者搜索推荐,但需要明确回答。需要确保回答结构清晰,分点说明不同算法,包括原理、计算方式和示例,可能的话给出代码示例。根据系统指令,数学公式需要用$...$,独立公式用$$...$$,并且正确使用LaTeX语法。 需要注意用户可能对技术细节不太熟悉,所以解释要简明,避免过于复杂的数学推导。同时,生成相关问题时要围绕字符串相似度的扩展方向,比如优化方法、应用场景比较等。还要检查是否引用了提供的资料,比如引用[^1]和[^2],确保在适当的位置添加引用标识。最后,代码部分需要用Python,因为示例中的快速排序用的是Python,虽然引用中的示例是Java,但用户可能更期待Python实现,或者需要注明不同语言的差异。</think>### 字符串相似度计算方法 #### 1. **莱文斯坦编辑距离(Levenshtein Distance)** **原理**:通过计算将一个字符串转换为另一个字符串所需的**最小编辑操作次数**(插入、删除、替换),距离越小相似度越高。 **公式**: 若字符串$a$长度为$m$,字符串$b$长度为$n$,动态规划递推公式为: $$ d_{i,j} = \begin{cases} \max(i,j) & \text{if } \min(i,j)=0 \\ \min \begin{cases} d_{i-1,j} + 1 \\ d_{i,j-1} + 1 \\ d_{i-1,j-1} + \text{cost} \end{cases} & \text{otherwise} \end{cases} $$ 其中$\text{cost}=0$(当$a_i=b_j$)或$1$(否则)[^1]。 **Python实现**: ```python def levenshtein_distance(s1, s2): m, n = len(s1), len(s2) dp = [[0] * (n+1) for _ in range(m+1)] for i in range(m+1): dp[i][0] = i for j in range(n+1): dp[0][j] = j for i in range(1, m+1): for j in range(1, n+1): cost = 0 if s1[i-1] == s2[j-1] else 1 dp[i][j] = min(dp[i-1][j] + 1, # 删除 dp[i][j-1] + 1, # 插入 dp[i-1][j-1] + cost) # 替换 return dp[m][n] ``` 相似度可归一化为: $$ \text{similarity} = 1 - \frac{\text{distance}}{\max(m,n)} $$ #### 2. **Jaro-Winkler相似度** **原理**:基于**匹配字符数**和**字符顺序一致性**,适合短字符串(如姓名)。 **公式**: Jaro相似度$J$计算为: $$ J = \frac{1}{3} \left( \frac{m}{|a|} + \frac{m}{|b|} + \frac{m - t}{m} \right) $$ 其中$m$为匹配字符数,$t$为换位次数。Winkler修正后增加对前缀一致的奖励。 #### 3. **余弦相似度(文本向量化)** **原理**:将字符串表示为词频向量,计算向量间夹角余弦值。 **步骤**: 1. 分词并构建词表 2. 统计词频生成向量 3. 计算余弦相似度: $$ \text{similarity} = \frac{\mathbf{A} \cdot \mathbf{B}}{|\mathbf{A}| \cdot |\mathbf{B}|} $$ #### 4. **最长公共子序列(LCS)** **原理**:寻找两个字符串共有的最长子序列长度,长度越大相似度越高。 **应用场景**:DNA序列比对、代码差异分析。 --- ### 选择算法的场景对比 | 算法 | 适用场景 | 特点 | |------------------|----------------------------------|------------------------------------| | 莱文斯坦编辑距离 | 拼写纠错、短文本匹配 | 计算精确,时间复杂度$O(mn)$ | | Jaro-Winkler | 姓名/地址匹配 | 对前缀一致敏感,速度快 | | 余弦相似度 | 长文本(如文档、段落) | 需分词,适合语义相似度 | | LCS | 结构化数据比对(代码、基因序列) | 忽略非连续差异,关注顺序一致性 | ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值