模糊hash算法的一点理解

最新推荐文章于 2025-07-20 10:32:50 发布

原创最新推荐文章于 2025-07-20 10:32:50 发布 · 1.7k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hash #算法

本文探讨了模糊哈希算法的工作原理，重点介绍了通过使用滚动窗口技术解决分片错位问题的方法。这种技术允许即使在文件中插入或删除内容，也能保持大部分特征的相似性。

模糊hash算法的一点理解

详细参考博文：模糊哈希算法的原理

这里写下本人一点点理解，欢迎指正：

个人感觉大概是这个意思：
分片什么的好理解，为了得到每一部分的特征。

但是有个问题：增加或者减少Bit会导致分片错位，当然每个分片的hash就不同了，那么应该十分相似的两段东西就迥然不同了

现在我们用滚动窗口。
比如一段序列：

abcdabc…

我们得到abc,bcd,cda,abc
这样即使加入了一个字符是

abccdabc…

得到：abc,bcc,ccd,cda,abc
可以看出来和原来还是有很大的相同的

然后就要解决在什么地方分片的问题，不可能用字符的个数作为依据来分片，这样还是会有上述问题

那么我们将得到字符串的hash值作为分片依据，也就是一旦找到了预期的字符串就分一下片。比如我们找到了abc就分片，这样即使插入了一个字符还是能够得到一样的分片，顶多插入一个字符会影响两个分片

其他的部分就十分好理解了，在此不赘述。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

CugBug

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

基于模糊哈希的恶意代码检测系统（附源代码）

03-04

一个文件也许有意或无意地产生变化。例如，有意的情况有作者改动文本内容、恶意代码自动变化；无意的情况有传输出错、磁盘存储出错等。如何有效判断两个文件是否相似，从而是同源的？这个问题在很多领域都有遇到。 Kornblum提出了模糊哈希算法。模糊哈希的主要原理是，使用一个弱哈希计算文件局部内容，在特定条件下对文件进行分片，然后使用一个强哈希对文件每片计算哈希值，取这些值的一部分并连接起来，与分片条件一起构成一个模糊哈希结果。使用一个字符串相似性对比算法判断两个模糊哈希值的相似度有多少，从而判断两个文件的相似程度。随着计算机网络技术的发展，恶意代码的问题也越来越严峻，对于现有的恶意代码产生的变体（包括在多处修改、增加、删除部分内容），使用模糊哈希均能发现与源文件的相似关系，是目前判断相似性，检测恶意代码较好的一种方法。

人工智能(模糊算法)

04-05

本文件详细介绍了模糊算法的原理及其在人工智能领域的应用

1 条评论您还未登录，请先登录后发表或查看评论

模糊哈希算法的原理与应用

椰子的专栏

05-22

1万+

模糊哈希算法的原理与应用 Posted on 2012 年 02 月 06 日关于模糊哈希（Fuzzy Hashing）算法，目前网上有几篇中文资料介绍，但均不准确。写这篇文章以纠正，并对其原理和应用作详细的介绍。一、概述模糊哈希算法又叫基于内容分割的分片分片哈希算法（context triggered piecewise hashing, CTPH），主要用于文件的相似性比

fuzzy hash（模糊哈希）算法

mznewfacer的专栏

06-07

9058

最近看一篇paper，无意中看见了一种模糊哈希算法——fuzzy hash算法。于是立刻去翻阅相关资料，整理出如下文章。首先说说哈希算法。大家都知道函数实际上就是一种映射，本质是将一个集合通过对应法则f映射到另一个集合。而哈希算法是一个特殊的函数，他具有的特点是，定义域是一个不确定的无限集合而值域是一个有限集合。简单来说,哈希算法就是将一个任意大的数据项（如计算机文

模糊哈希算法（待详细补充）

benguniang的博客

05-10

1910

什么是模糊哈希？是一种基于内容分割的分片哈希算法（context triggered piecewise hashing, CTPH），主要用于文件的相似性比较。模糊哈希的主要原理：使用一个弱哈希计算文件局部内容，在特定条件下对文件进行分片（利用弱哈希分析局部特点，确定分片大小）然后使用一个强哈希对文件每片计算哈希值，取这些值的一部分并连接起来，与分片条件一起构成一个模糊哈希结果 ...

【文本去重】通俗易懂理解Minhash算法

a61022706的博客

08-28

5078

minhash算法直观理解

哈希表在恶意软件检测算法中的应用

AI天才研究院

05-02

1211

随着网络安全威胁的复杂化，恶意软件检测技术需要在海量文件中快速识别已知威胁并发现变种。哈希表作为高效的数据结构，通过存储文件特征哈希值，支持O(1)时间复杂度的快速查询，成为检测系统的核心组件。本文聚焦哈希表在恶意软件检测中的核心应用，包括精确匹配、模糊匹配、特征库管理等，结合算法原理与实战案例，揭示其技术本质与工程实现。背景与核心概念：定义关键术语，建立技术框架算法原理：解析精确哈希与模糊哈希的数学模型与实现实战开发：从环境搭建到完整检测系统的代码实现应用场景：不同业务场景下的技术适配与优化策略。

加密算法之单向散列算法

SXXYNHHXX的博客

12-12

1268

背景：现有的序列号加密算法大都是软件开发者自行设计的，大部分相当简单。有些算法，其作者虽然下了很大的工夫，却往往达不到希望达到的效果。其实，有很多成熟的算法可以使用，特别是密码学中一些强度比较高的算法，例如RSA 、BlowFish 、MD5等。对这些算法，网上有大量的源码或编译好的库(当然这些库中可能会有一些漏洞),可以直接加以利用，我们要做的只是利用搜索引擎找到它们并将它们嵌入自己的程序。

SQL必知必会25-Hash索引的底层原理是什么？

qq_53280238的博客

07-02

836

我今天讲了 Hash 索引的底层原理，你能看到 Hash 索引存在着很多限制，相比之下在数据库中 B+ 树索引的使用面会更广，不过也有一些场景采用 Hash 索引效率更高，比如在键值型（Key-Value）数据库中，Redis 存储的核心就是 Hash 表。另外 MySQL 中的 Memory 存储引擎支持 Hash 存储，如果我们需要用到查询的临时表时，就可以选择 Memory 存储引擎，把某个字段设置为 Hash 索引，比如字符串类型的字段，进行 Hash 计算之后长度可以缩短到几个字节。

RK算法实现字符串模糊匹配与模式搜索

RK算法的关键优势在于其利用滚动哈希（rolling hash）机制，使得每次滑动窗口后可以快速更新当前子串的哈希值，而无需重新计算整个子串的哈希。典型的滚动哈希实现方式是将字符串视为某个进制下的数字（如256进制...

PID算法及原理（增量式，位置型，专家算法，模糊算法）

08-18

PID算法及原理详解，包含增量式PID，位置型PID，梯度PID，专家PID，模糊算法等，从普通PID原型到专家PID逐步优化原理及代码，包含初级到高阶算法

哈希算法-求文档相似度

03-29

The book is based on Stanford Computer Science course CS246: Mining Massive Datasets (and CS345A: Data Mining). The book, like the course, is designed at the undergraduate computer science level with no formal prerequisites. To support deeper explorations, most of the chapters are supplemented with further reading references. The Mining of Massive Datasets book has been published by Cambridge University Press. You can get a 20% discount by applying the code MMDS20 at checkout. By agreement with the publisher, you can download the book for free from this page. Cambridge University Press does, however, retain copyright on the work, and we expect that you will obtain their permission and acknowledge our authorship if you republish parts or all of it. We welcome your feedback on the manuscript.

fuzzy logic模糊计算的原理

viewcode的专栏

06-03

1万+

为什么需要模糊计算？首先，弄清楚传统计算的方式：精确的数学语言，定量化分析，无法解决概念模糊的问题，如大房子，小个子，小伙子等。原因就是有一些概念模糊的问题，需要模糊计算来处理。模糊计算与普通计算的明显不同之处在哪里？普通计算，一般是函数式，一一对应的关系。而模糊计算，一个变量，可以对应于多个状态值，当然，这些个状态与普通的函数表示也不是完全相同的，并不是完

python模糊匹配算法_用于模糊匹配的Python哈希表

weixin_39690097的博客

12-05

300

I am trying to implement a data structure which allows rapid look-ups based on keys.The python dict is great when my look-ups involve an equality(e.g. key == somevalue translates to datadict[somevalue...

23、模糊哈希：原理、实现与应用

star5的专栏

06-30

103

本文详细介绍了模糊哈希的原理、实现方式及其在数字取证和信息安全领域的应用。内容涵盖模糊哈希的核心技术（如滚动哈希和传统哈希）、手动实现模糊哈希的代码逻辑、使用ssdeep库提高效率的方法，以及模糊哈希在恶意文件检测、文件版本检测和数据重复检测中的实际应用场景。同时分析了模糊哈希的优势与局限性，并展望了其未来的发展方向。

6.4 模糊哈希匹配（ssdeep, Imphash）

热门推荐

百锦再的博客

12-12

1万+

模糊算法，也称为模糊逻辑或模糊推理，是一种基于模糊集合理论的数学方法，用于处理模糊或不确定性信息。与传统的二值逻辑相比，模糊逻辑允许数据具有模糊性、不确定性和部分真实性。

hash表如何实现模糊查找

04-14

<think>好的，我现在需要帮助用户理解如何使用哈希表实现模糊匹配或近似查找算法。首先，我需要回忆一下哈希表的基本概念。哈希表通过哈希函数将键映射到特定的位置，实现快速查找。但传统的哈希表主要用于精确查找，而模糊查找需要不同的方法。用户提到了位置敏感哈希（LSH），根据引用[1]，LSH是一种基于哈希的方法，用于减少搜索范围。我应该详细解释LSH的原理。LSH的核心思想是让相似的项在经过哈希后映射到同一个桶中的概率更高。这样，当进行近似查找时，只需要在同一个或邻近的桶中搜索，而不需要遍历整个数据集，从而提高效率。接下来，我需要考虑如何具体实现LSH。通常，LSH会使用多个哈希函数，每个函数对应一个哈希表。例如，对于向量数据，可以使用随机投影的方法生成哈希函数。假设数据点是高维向量，随机生成一个超平面，根据数据点在该超平面上的投影符号来决定哈希值。这样，相似的数据点会有更高的概率得到相同的哈希值。然后，需要解释模糊查找的步骤。首先是预处理阶段，需要将所有数据点通过LSH函数哈希到相应的桶中。查询时，将查询点用同样的哈希函数处理，得到桶的编号，然后在该桶及其相邻的桶中进行线性搜索，找到最近邻。可能还需要提到不同的LSH变体，比如适用于欧氏距离的E2LSH，或者适用于余弦相似度的SimHash。这能帮助用户了解不同场景下的应用选择。例如，SimHash通过计算特征的哈希并加权求和，生成指纹，适用于文本相似性检测。另外，用户的问题可能涉及到参数调整，如哈希函数的数量、桶的大小等，这些参数会影响准确率和效率之间的平衡。增加哈希函数数量可以提高准确性，但也会增加计算和存储开销。最后，应用场景部分需要结合引用[2]中的ANN搜索，说明LSH在大规模数据中的实际应用，如图像检索、推荐系统等。同时，要指出LSH的优缺点，比如高效但需要参数调优，可能存在的误报和漏报情况。需要确保回答结构清晰，分步骤说明实现方法，并举例说明，让用户能够逐步理解和应用。同时，检查是否引用了正确的资料，并在末尾添加相关问题，帮助用户进一步探索。</think>以下是哈希表实现模糊匹配或近似查找的详细方法： ### 1. 核心思路传统哈希表通过精确哈希值匹配键值对，而模糊匹配需要**允许相似数据映射到相同或邻近的哈希桶**。核心方法是**位置敏感哈希（Locality-Sensitive Hashing, LSH）**，其设计满足： - **相似数据碰撞概率高** - **不相似数据碰撞概率低** ### 2. 实现步骤 #### (1) 选择LSH函数族根据数据类型和相似度度量选择函数： - **向量数据（欧氏距离）**：使用随机投影哈希 $$h(\mathbf{v}) = \text{sign}(\mathbf{r} \cdot \mathbf{v})$$ 其中$\mathbf{r}$是随机高斯向量 - **集合数据（Jaccard相似度）**：使用最小哈希（MinHash） - **文本数据（余弦相似度）**：使用SimHash #### (2) 构建多哈希表通过$k$个LSH函数组合提升精度： - **联合哈希函数**：$g(\mathbf{v}) = [h_1(\mathbf{v}),h_2(\mathbf{v}),...,h_k(\mathbf{v})]$ - **构建$L$个独立哈希表**，每个表使用不同的$g$函数组合 #### (3) 查询过程 1. 将查询$q$通过所有$L$个哈希函数计算桶编号 2. 合并所有相关桶中的候选集 3. 线性扫描候选集计算精确相似度 ```python import numpy as np class LSH: def __init__(self, dim, k=4, L=5): self.hash_tables = [{} for _ in range(L)] self.projections = [np.random.randn(dim) for _ in range(L*k)] def hash(self, vec, table_idx): h = [] for i in range(table_idx*self.k, (table_idx+1)*self.k): h.append(1 if np.dot(vec, self.projections[i]) >=0 else 0) return tuple(h) def insert(self, vec, data): for i in range(len(self.hash_tables)): bucket = self.hash(vec, i) if bucket not in self.hash_tables[i]: self.hash_tables[i][bucket] = [] self.hash_tables[i][bucket].append(data) def query(self, vec, max_candidates=100): candidates = set() for i in range(len(self.hash_tables)): bucket = self.hash(vec, i) if bucket in self.hash_tables[i]: candidates.update(self.hash_tables[i][bucket]) if len(candidates) >= max_candidates: break return list(candidates)[:max_candidates] ``` ### 3. 关键参数优化 | 参数 | 影响 | 典型值 | |-----|------|-------| | k（哈希位数） | 增大则候选集精度↑召回率↓ | 4-16 | | L（哈希表数量） | 增大则召回率↑内存消耗↑ | 5-50 | | 桶半径 | 控制候选集规模 | 动态调整 | ### 4. 应用场景 1. **图像特征检索**：对SIFT/SURF特征进行LSH索引[^2] 2. **推荐系统**：快速查找相似用户/物品 3. **生物信息学**：蛋白质序列模糊匹配 4. **抄袭检测**：文档指纹近似匹配 ### 5. 改进方向 - **动态LSH**：支持数据流更新 - **多探针查询**：搜索相邻哈希桶提升召回率 - **学习型LSH**：通过机器学习优化哈希函数