php 对比字符串相似度

其实我一直都觉得 similar_text 就可以完成对比了(需求不复杂的话)

网上找了一些文章,说similar_text返回的数字有问题,比如说:

echo similar_text("吉林禽业公司火灾已致112人遇难","吉林宝源丰禽业公司火灾已致112人遇难");

得到的是42,不准确。。。

我希望能更正一下,请参照: https://www.w3school.com.cn/php/func_string_similar_text.asp

上面说的是:计算两个字符串的相似度,并返回匹配字符的数目(应该是字节数,中文三个字节长度,算下来刚刚好)

所以说想要得到相似度,应该是用函数返回值除以想要参考的字符串 42/51 0.8235294117647059‬

或者直接加上第三个参数就好了:不过和上面通过字节计算的结果又有偏差 -- 90.322580645161,但是我反而觉得,上面的计算才比较符合常理,匹配的字节数/待对比的字符串的字节数

similar_text("吉林禽业公司火灾已致112人遇难","吉林宝源丰禽业公司火灾已致112人遇难",$p);
echo $p;

下面就是我看到的自定义函数,会得到同样的结果 0.90322580645161

<?php
//require_once './function.php';
function dump($var, $exit = 0)
{
    echo "<pre>";
    var_dump($var);
    if ($exit) {
        exit;
    }
}

class LCS
{
    var $str1;
    var $str2;
    var $c = array();

    /*返回串一和串二的最长公共子序列
    */
    function getLCS($str1, $str2, $len1 = 0, $len2 = 0)
    {
        $this->str1 = $str1;
        $this->str2 = $str2;
        if ($len1 == 0) $len1 = strlen($str1);
        if ($len2 == 0) $len2 = strlen($str2);
        $this->initC($len1, $len2);
        return $this->printLCS($this->c, $len1 - 1, $len2 - 1);
    }

    /*返回两个串的相似度
    */
    function getSimilar($str1, $str2)
    {
        $len1 = strlen($str1);
        $len2 = strlen($str2);
        $len = strlen($this->getLCS($str1, $str2, $len1, $len2));
        return $len * 2 / ($len1 + $len2);
    }

    function initC($len1, $len2)
    {
        for ($i = 0; $i < $len1; $i++) $this->c[$i][0] = 0;
        for ($j = 0; $j < $len2; $j++) $this->c[0][$j] = 0;
        for ($i = 1; $i < $len1; $i++) {
            for ($j = 1; $j < $len2; $j++) {
                if ($this->str1[$i] == $this->str2[$j]) {
                    $this->c[$i][$j] = $this->c[$i - 1][$j - 1] + 1;
                } else if ($this->c[$i - 1][$j] >= $this->c[$i][$j - 1]) {
                    $this->c[$i][$j] = $this->c[$i - 1][$j];
                } else {
                    $this->c[$i][$j] = $this->c[$i][$j - 1];
                }
            }
        }
    }

    function printLCS($c, $i, $j)
    {
        if ($i == 0 || $j == 0) {
            if ($this->str1[$i] == $this->str2[$j]) return $this->str2[$j];
            else return "";
        }
        if ($this->str1[$i] == $this->str2[$j]) {
            return $this->printLCS($this->c, $i - 1, $j - 1) . $this->str2[$j];
        } else if ($this->c[$i - 1][$j] >= $this->c[$i][$j - 1]) {
            return $this->printLCS($this->c, $i - 1, $j);
        } else {
            return $this->printLCS($this->c, $i, $j - 1);
        }
    }
}

$lcs = new LCS();
//返回最长公共子序列
echo $lcs->getLCS("hello word", "hello china");
echo '<br/>';
//返回相似度
echo '自定义函数的出来的:'. $lcs->getSimilar("吉林禽业公司火灾已致112人遇难", "吉林宝源丰禽业公司火灾已致112人遇难");
echo '<br/>';
echo 'similar_text 得出的匹配个数: '.similar_text("吉林禽业公司火灾已致112人遇难","吉林宝源丰禽业公司火灾已致112人遇难");
echo '<br/>';
echo '字符串本来的长度'.(strlen('吉林禽业公司火灾已致112人遇难'));
echo '<br/>';
echo '待对比字符串本来的长度'.(strlen('吉林宝源丰禽业公司火灾已致112人遇难'));
echo '<br/>';
similar_text("吉林禽业公司火灾已致112人遇难","吉林宝源丰禽业公司火灾已致112人遇难",$p);
echo 'similar_text 得出的匹配百分比: '.$p;

上面的打印结果:

hello
自定义函数的出来的:0.90322580645161
similar_text 得出的匹配个数: 42
字符串本来的长度42
带对比字符串本来的长度51
similar_text 得出的匹配百分比: 90.322580645161

一样的。。。 

个人认为:

字符串相似度比较确实有一些难度,要看具体的需求,是不是一个一个字符去比较,是不是位置也不能有偏差等等,不过要是Php自带的函数就能实现你想要的结果,就不需要再去自定义函数了。

ps: similar_text 区分大小写

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值