其实我一直都觉得 similar_text 就可以完成对比了(需求不复杂的话)
网上找了一些文章,说similar_text返回的数字有问题,比如说:
echo similar_text("吉林禽业公司火灾已致112人遇难","吉林宝源丰禽业公司火灾已致112人遇难");
得到的是42,不准确。。。
我希望能更正一下,请参照: https://www.w3school.com.cn/php/func_string_similar_text.asp
上面说的是:计算两个字符串的相似度,并返回匹配字符的数目(应该是字节数,中文三个字节长度,算下来刚刚好)
所以说想要得到相似度,应该是用函数返回值除以想要参考的字符串 42/51 0.8235294117647059
或者直接加上第三个参数就好了:不过和上面通过字节计算的结果又有偏差 -- 90.322580645161,但是我反而觉得,上面的计算才比较符合常理,匹配的字节数/待对比的字符串的字节数
similar_text("吉林禽业公司火灾已致112人遇难","吉林宝源丰禽业公司火灾已致112人遇难",$p);
echo $p;
下面就是我看到的自定义函数,会得到同样的结果 0.90322580645161
<?php
//require_once './function.php';
function dump($var, $exit = 0)
{
echo "<pre>";
var_dump($var);
if ($exit) {
exit;
}
}
class LCS
{
var $str1;
var $str2;
var $c = array();
/*返回串一和串二的最长公共子序列
*/
function getLCS($str1, $str2, $len1 = 0, $len2 = 0)
{
$this->str1 = $str1;
$this->str2 = $str2;
if ($len1 == 0) $len1 = strlen($str1);
if ($len2 == 0) $len2 = strlen($str2);
$this->initC($len1, $len2);
return $this->printLCS($this->c, $len1 - 1, $len2 - 1);
}
/*返回两个串的相似度
*/
function getSimilar($str1, $str2)
{
$len1 = strlen($str1);
$len2 = strlen($str2);
$len = strlen($this->getLCS($str1, $str2, $len1, $len2));
return $len * 2 / ($len1 + $len2);
}
function initC($len1, $len2)
{
for ($i = 0; $i < $len1; $i++) $this->c[$i][0] = 0;
for ($j = 0; $j < $len2; $j++) $this->c[0][$j] = 0;
for ($i = 1; $i < $len1; $i++) {
for ($j = 1; $j < $len2; $j++) {
if ($this->str1[$i] == $this->str2[$j]) {
$this->c[$i][$j] = $this->c[$i - 1][$j - 1] + 1;
} else if ($this->c[$i - 1][$j] >= $this->c[$i][$j - 1]) {
$this->c[$i][$j] = $this->c[$i - 1][$j];
} else {
$this->c[$i][$j] = $this->c[$i][$j - 1];
}
}
}
}
function printLCS($c, $i, $j)
{
if ($i == 0 || $j == 0) {
if ($this->str1[$i] == $this->str2[$j]) return $this->str2[$j];
else return "";
}
if ($this->str1[$i] == $this->str2[$j]) {
return $this->printLCS($this->c, $i - 1, $j - 1) . $this->str2[$j];
} else if ($this->c[$i - 1][$j] >= $this->c[$i][$j - 1]) {
return $this->printLCS($this->c, $i - 1, $j);
} else {
return $this->printLCS($this->c, $i, $j - 1);
}
}
}
$lcs = new LCS();
//返回最长公共子序列
echo $lcs->getLCS("hello word", "hello china");
echo '<br/>';
//返回相似度
echo '自定义函数的出来的:'. $lcs->getSimilar("吉林禽业公司火灾已致112人遇难", "吉林宝源丰禽业公司火灾已致112人遇难");
echo '<br/>';
echo 'similar_text 得出的匹配个数: '.similar_text("吉林禽业公司火灾已致112人遇难","吉林宝源丰禽业公司火灾已致112人遇难");
echo '<br/>';
echo '字符串本来的长度'.(strlen('吉林禽业公司火灾已致112人遇难'));
echo '<br/>';
echo '待对比字符串本来的长度'.(strlen('吉林宝源丰禽业公司火灾已致112人遇难'));
echo '<br/>';
similar_text("吉林禽业公司火灾已致112人遇难","吉林宝源丰禽业公司火灾已致112人遇难",$p);
echo 'similar_text 得出的匹配百分比: '.$p;
上面的打印结果:
hello
自定义函数的出来的:0.90322580645161
similar_text 得出的匹配个数: 42
字符串本来的长度42
带对比字符串本来的长度51
similar_text 得出的匹配百分比: 90.322580645161
一样的。。。
个人认为:
字符串相似度比较确实有一些难度,要看具体的需求,是不是一个一个字符去比较,是不是位置也不能有偏差等等,不过要是Php自带的函数就能实现你想要的结果,就不需要再去自定义函数了。
ps: similar_text 区分大小写

502

被折叠的 条评论
为什么被折叠?



