基于编辑距离比较的高仿号检测器

最新推荐文章于 2023-10-22 10:30:28 发布

原创最新推荐文章于 2023-10-22 10:30:28 发布 · 392 阅读

0 ·

CC 4.0 BY-SA版权

啊专栏收录该内容

19 篇文章

订阅专栏

针对社交平台上真假难辨的网红高仿号问题，本文介绍了一种基于编辑距离算法的高仿号检测器，能有效识别并揭示高仿号的仿造手段，特别适用于细微差别难以察觉的情况。

1.简介

随着各类社交网站的快速发展，越来越多的网红浮现出来。因而许多网红的高仿号也层出不穷，让人真假难辨。目前大多数的社交网站都保证用户名的候选码属性，即不允许两个用户使用同样的名称。尽管如此，许多高仿号仍然可以做到以假乱真，混淆视听。例如，图1，图2分别展示了钉钉的官方号和其中一个高仿号。
在这里插入图片描述
图1

除了级别上的差距以外，几乎看不出任何差别。后来在网友的提醒下我才注意到，高仿号中的talk并不是真正的talk，而是用大写的字母i代替了原先小写的L。

为了更好地甄别官方号和高仿号，在本文中我们开发了基于编辑距离计算的高仿号检测器。这里读者肯定要问了，你直接比较str1 == str2不就可以了吗，显然这种方式是可以的，但是这种方法只是做到了知其然，但没做到知其所以然。我们不但要识破高仿号，更要能彻底的揭穿高仿号的仿造手段，高仿号和官方号往往非常相似，只是在细小的地方做了手脚，我们的目的正是揪出这细小的细节。

2.算法回顾

编辑距离算法是经典的动态规划算法。编辑距离的定义是，假设有一个字符串s,欲使得字符串由s变为t，可以进行下列三种操作：
1）替换s中的某个字母
2）删除s中的某个字母
3）在s某处添加一个字母
每个操作只能操作一个字母，由s变为t所需的操作次数叫做编辑距离，所需的最少次数叫做最短编辑距离。

最短编辑距离编辑距离的动态转移方程可以写作
$d p [i + 1] [j + 1] = m i n (d p [i] [j + 1] + 1, d p [i + 1] [j] + 1, d p [i] [j] + s t r 1 [i] = = s t r 2 [j] ? 0 : 1$
其中str1, str2表示要比较的两个字符串，dp[i+1][j+1]表示字符串str1[0:i]和str[0:j]的最短编辑距离，其中规定
$d p [0] [i] = i, d p [i] [0] = i$