字面文本相似度算法——SimHash

技术宅zch

于 2020-04-20 21:06:04 发布

阅读量2.4k

点赞数 1

分类专栏： NLP 文章标签：人工智能自然语言处理 NLP 算法数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_19672707/article/details/105640763

版权

SimHash

什么是字面文本相似度？
什么是SimHash？
SimHash计算流程
文本相似度计算
超大规模数据集计算

什么是字面文本相似度？

在NLP领域如何判断两个文本的相似性是一个基础性的任务，而文本的相似性往往可以理解为两个方面：字面相似性和语义相似性。怎么理解这个内容呢？就比如说白龙马和赤兔马，乍一看，”WC，这不就是马么有啥区别？一个是白的一个是红的，也没啥！“，但是究其本质白龙马是龙啊，赤兔马就是一匹普通的坐骑。

上面的例子可以认为是“形似韵不同”的诠释，还有些是“形不似，神似”，等等。而字面文本相似度就是解决无论语义怎样，只要两个文本长得差不多，那就相似。

什么是SimHash？

说SimHash不难会想到Hash。

Hash对于一个了解数据结构的人来说并不陌生，可以认为是数据的一个“唯一性”id，但是并不唯一，这与hash算法和hash函数的选取有关，有可能出现冲突等问题。扯远了~

一个文本采用Hash后的编码可以代表这个文本，但是将整个文本的内容进行hash后，很少有两个hash文本很类似，也就是说，文本间的hash码会有很大的差异。也就无法度量文本间的字面相似度。

SimHash是Google发表于2007的论文《Detecting Near-Duplicates for Web Crawling》。设计的初衷是用于搜索引擎的网页去重的工作。

其实还有一个作用，就是用于判断两篇文章是否有抄袭。如果最后的SimHash的值相差不多，很可能文章就有抄袭。

SimHash还有一种叫法，称为局部Hash

最低0.47元/天解锁文章

博客等级

码龄11年

79
原创

389
点赞

1132
收藏

89
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

聚类效果评估——轮廓系数（Silhouette Coefficient）附Python代码
RealMoYe: 博主您好，“是什么”部分，分离度定义中“紧密”一词应该是“分离”？
TensorFlow1.x入门（5）——构建非线性回归模型
Drew�: np.linspace拼写错误啦，可以更正下，支持博主
机器学习，深度学习模型训练阶段的Shuffle重要么？为什么？
新一代图书管理员の养成笔记: 对NN能记住100条数据中前50条和后50条的次序区别存疑：以MLP为例，它内部不存在可以记忆时间的结构，如果前50条和后50条的信息是一模一样的，输入MLP，也将得到一模一样的结果，而如果MLP能记住“第几条数据”这个信息，则不可能得到一模一样的结果，故MLP记不住第几条数据的信息
Python中yield的作用与for循环的区别，yield关键字的白话解析
优快云-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.youkuaiyun.com/questions/8006779, 请多输出高质量博客, 帮助更多的人
机器学习，深度学习模型训练阶段的Shuffle重要么？为什么？
qiao_yx: 在处理数据集时，是否将不同类别的数据一起做shuffle或分开处理取决于具体的情况和任务要求。将所有数据一起做shuffle然后划分数据集：适用场景：当你希望保持数据的随机性，并且对类别的顺序不敏感时，可以将所有数据合并后进行shuffle，然后再划分成训练集、验证集和测试集等。示例：在一个分类任务中，如果不同类别的数据在训练集和测试集中的分布比例是一样的，那么可以将所有数据合并后进行shuffle。分开类别分别做对应的操作：适用场景：当你希望在数据集的划分或处理过程中保持类别的平衡时，可以先将不同类别的数据分开，然后分别进行shuffle和处理。示例：在一个分类任务中，如果你希望训练集和测试集中的每个类别的样本数量保持大致相等，那么可以先将数据按类别分开，然后分别shuffle，最后再合并成训练集和测试集。具体选择哪种方式取决于任务的要求和数据集的性质。在实践中，可以根据具体情况灵活选择合适的方法。无论选择哪种方式，都要保证数据集的划分和处理是公平、合理的，以保证模型训练和评估的可靠性。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。