Hash算法-CityHash算法

最新推荐文章于 2024-08-31 09:04:40 发布

weixin_30718391

最新推荐文章于 2024-08-31 09:04:40 发布

阅读量680

点赞数

CC 4.0 BY-SA版权

文章标签： python c/c++ php

原文链接：http://www.cnblogs.com/rainnight/p/3475519.html

CityHash是由Google发布的一种高性能字符串散列算法，包含cityhash64与cityhash128两个版本，分别生成64位与128位的散列值。CityHash不适用于加密场景，但在散列表等方面表现优异。相较于MurmurHash，CityHash拥有更快的速度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

cityhash系列字符串散列算法是由著名的搜索引擎公司Google 发布的 (http://www.cityhash.org.uk/)。

Google发布的有两种算法：cityhash64 与 cityhash128。它们分别根据字串计算 64 和 128 位的散列值。这些算法不适用于加密，但适合用在散列表等处。

目前cityHash算法只有C++的实现,就性能而言，CityHash性能略胜MurmurHash算法。有兴趣的同学可以到http://www.cityhash.org.uk/index.php去看看。

转载于:https://www.cnblogs.com/rainnight/p/3475519.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30718391

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

cityhash 算法的使用

个人博客

07-11

1万+

今天在看ClickHouse源码时，注意到ClickHouse使用了cityhash128作为自己的HASH算法: The first 16 bytes are the checksum from all other bytes of the block. Now only CityHash128 is used. cityhash 算法是谷歌提出的哈希算法，之前从来没有听说过。 GitHub仓...

深入理解CityHash算法

hello.reader

10-23

1909

在大数据和高性能计算领域，高效的哈希算法对于数据处理和检索至关重要。CityHash是由Google开发的一种高性能字符串哈希函数，专为处理任意长度的字节序列而设计。本文将深入探讨CityHash算法的核心原理，并通过C++示例代码解析其实现细节。

参与评论您还未登录，请先登录后发表或查看评论

Google发布CityHash系列散列算法

weixin_33755649的博客

09-23

247

Google发布了 CityHash系列字符串散列算法。今天发布的有两种算法：CityHash64 与 CityHash128。它们分别根据字串计算64和128位的散列值。这些算法不适用于加密，但适合用在散列表等处。Google一直在根据其数据中心常用的CPU对算法进行优化，结果发现对大多数个人计算机与笔记本同样有效益。尤其是在64位寄存器、指令集级的并行，以及快速非对其内存存取方面。该算法的开发...

CityHash

qq_37502208的博客

08-06

1357

CityHash在python上可以直接导入模块使用。https://pypi.org/project/cityhash/但是可能仅支持Linux系统，不支持Windows系统(反正本菜鸡在瘟十上面各种报错提示要修改XX文件)... CityHash算法由Google公司于2013年公布，是个略久远的算法了~ CityHash 的主要优点是大部分步骤包含了至少两步独立的数学运算。现代 CPU ...

Google的CityHash算法

weixin_33704234的博客

10-28

666

在学数据结构的时候，大家一定学过散列表，但很多人不知道算列表有什么用，最后只知道做题，这也许就是教育的悲哀吧。我开始也不知道，但是有一天，我学java的时候，用到了HashTable和HashSet的时候，就想到了散列表，网上查资料才发现散列表的巨大作用。言归正传，今天我们来讨论一下字符串哈希算法。常用的简单又高效字符串哈希算有BKDRHash，APHash，DJBHash，JSHash，RS...

常见的Hash算法？解决hash冲突的算法？如何自己手写一个hash算法？

dongcheng_2015的博客

05-18

1778

目录一、Hash函数介绍二、基本概念三、hash函数的应用四、加密hash算法五、查找hash算法六、hash函数的分类七、哈希函数的选择八、hash冲突的解决办法 8.1开放定址法 8.2 再哈希法 8.3链地址法 8.4建立公共溢出区九、如何自己手写一个hash算法 9.1加法hash 9.2 位运算hash 参考博文一、Hash函数介绍在记录的关键字与记录的存储地址之间建立的一种对应关系叫哈希函数。哈希函数就是一种映射，是从关键字到存储...

高运算性能,低碰撞率的hash算法MurmurHash算法.zip

07-19

2011年Appleby被Google雇佣，随后Google推出其变种的CityHash算法。官方网站：https://github.com/aappleby/smhasherMurmurHash算法，自称超级快的hash算法，是FNV的4-5倍。官方数据如下： OneAtATime – 354....

常用Hash算法(C语言的简单实现)

09-01

Hash算法是一种将任意长度的输入（也叫做预映射）通过一个特定的函数转换成固定长度输出的算法。这个输出通常称为哈希值或散列值。哈希算法在计算机科学中有广泛的应用，如数据存储、查找表、密码学、数字签名等。...

google city hash 算法封装

12-15

City Hash算法主要包括三个主要的函数：CityHash32、CityHash64和CityHash128。这些函数分别生成32位、64位和128位的哈希值。它们的实现采用了多种技术，包括位操作、乘法和旋转等，以确保哈希值的分布均匀。其中，...

Java版cityHash64 与cityHash128算法的实现

阿华田的博客

08-07

3611

简介 cityhash系列字符串散列算法是由著名的搜索引擎公司Google 发布的 (http://www.cityhash.org.uk/)。Google发布的有两种算法：cityhash64 与 cityhash128。它们分别根据字串计算 64 和 128 位的散列值。这些算法不适用于加密，但适合用在散列表等处。目前cityHash算法只有C++和python的实现,java目前还没有开源的cityHash算法，下面通过java代码实现java版的cityHash64 与...

探索高效散列：Go语言下的CityHash实现

gitblog_00055的博客

04-24

297

探索高效散列：Go语言下的CityHash实现在追求数据处理极致效率的当下，散列算法作为数据结构和信息检索中的基石，其重要性不言而喻。今天，我们聚焦于一个特别的开源项目——Go cityhash，它是Google著名的City Hash算法在Go语言世界的一次优雅落地。让我们一起深入了解这一项目的魅力，探讨它的技术细节，应用场景，以及为何它能成为众多开发者手中的瑰宝。项目介绍 Go cityh...

高性能哈希函数：CityHash、FarmHash

坚定目标，超越自我

08-31

1506

CityHash 和 FarmHash 都是由 Google 开发的高性能哈希函数库，主要用于处理非加密哈希场景，如哈希表、数据分布、快速数据比较等。它们都是设计用来在64位系统上高效运行，提供了对不同长度输入数据的良好支持，并能产生高质量的哈希值。

php版的cityhash64,cityhash: google cityhash 算法，综合性能很不错，提供了到C的移植和FreeBasic的编译及测试（性能大致比汇编版的Adler32高一倍）...

weixin_35064596的博客

04-06

415

CityHash, a family of hash functions for strings.Introduction============CityHash provides hash functions for strings. The functions mix theinput bits thoroughly but are not suitable for cryptography...

探索CityHash: 高性能哈希函数的奇妙之旅

gitblog_00100的博客

04-09

895

探索CityHash: 高性能哈希函数的奇妙之旅在软件开发中，哈希函数是不可或缺的一部分，它们用于快速比较数据、构建哈希表和实现数据指纹。是 Google 开发的一个高效且具有良好分布性的哈希函数库，专为大数据集而设计。让我们深入了解 CityHash 的原理、用途及其独特之处。项目简介 CityHash 不是一个普通的哈希函数，而是由 Google 工程师们开发的一组算法，旨在处理大量的字...

常见哈希算法及其应用场景

陆业聪

03-30

1641

本文介绍了哈希算法及其应用，包括编码方法、密码学和非密码学哈希函数。选择合适的算法需考虑安全性、效率和数据结构需求。

Murmurhash 哈希算法介绍与实现

qigaohua的博客

10-31

2万+

最近在项目代码中看到了一种hash算法，以前没有遇见过，在此记录下来。一、介绍 MurmurHash 是一种非加密型哈希函数，适用于一般的哈希检索操作。由Austin Appleby在2008年发明，并出现了多个变种，都已经发布到了公有领域(public domain)。与其它流行的哈希函数相比，对于规律性较强的key，MurmurHash的随机分布特征表现更良好。—摘自w...

java cityhash_Java HashMap

weixin_29957793的博客

02-23

302

Java HashMap你从上一章了解到，ArrayList把数据存储为有序列表，使用索引号(int类型)访问它们。而HashMap将数据存储为“键/值”对，通过键(例如：字符串，键类似索引)访问它们。HashMap的键值对中，键是一个对象，对应的值也是一个对象，通过键可以访问到值。示例创建一个名为capitalCities的HashMap对象，键和值都是字符串类型:import java.uti...

MurmurHash PK CityHash

最新发布

03-31

<think>好的，用户想了解数据结构中hash算法的应用及实现原理。首先，我需要回忆一下hash算法的基础知识，确保自己理解正确。根据引用[3]，hash的基本原理是把任意长度的输入转换成固定长度的输出，这个输出就是哈希值。常见的应用比如MD5和SHA，这些在活动开发中经常使用。接下来，用户的问题集中在数据结构中的应用。数据结构中使用hash最典型的就是哈希表（Hash Table）。哈希表通过哈希函数将键映射到存储位置，这样可以实现快速的数据存取。需要解释哈希函数的作用，比如将键转换为数组下标，这样访问时间复杂度接近O(1)。不过这里可能会提到哈希冲突的问题，因为不同的键可能映射到同一位置，这时候需要用冲突解决方法，比如链地址法或开放寻址法。然后，关于实现原理，要详细说明哈希函数的设计，比如除留余数法、乘法散列等。同时，处理冲突的方法需要举例说明，比如链地址法中使用链表来存储同一位置的多个元素，而开放寻址法则会探测下一个空闲位置。这些内容在引用[2]中提到空间复杂度，可能需要联系空间复杂度来讨论哈希表的效率。应用方面，哈希算法在数据结构中的应用不仅仅是哈希表，还有分布式系统中的一致性哈希，或者数据库索引中的哈希索引。此外，缓存系统如Redis也使用哈希表来存储键值对。这些例子需要具体说明，让用户了解实际场景。需要注意的是，用户可能对哈希冲突的解决方法和不同哈希函数的优劣不太清楚，因此需要以简单易懂的方式解释。同时，结合引用[1]中提到的“有的放矢”，强调选择合适的哈希函数和冲突解决方法的重要性。最后，生成相关问题时要围绕哈希算法的扩展应用、冲突解决优化、与其他数据结构的比较等方面，帮助用户进一步学习。</think>### Hash算法在数据结构中的应用及实现原理 #### 一、Hash算法的核心原理 Hash算法通过哈希函数将任意长度的输入（如字符串、对象）映射为固定长度的输出（哈希值）。其数学表示为： $$ H(key) \rightarrow index $$ 其中$key$为输入数据，$index$为哈希表存储位置的索引。例如，输入字符串“hello”经过哈希函数计算后可能得到索引值$5$[^3]。 #### 二、数据结构中的典型应用 1. **哈希表（Hash Table）** - **结构设计**：由数组+链表/红黑树组成（如Java的HashMap） - **操作时间复杂度** | 操作 | 平均时间复杂度 | 最坏情况 | |------------|----------------|------------| | 插入/删除 | $O(1)$ | $O(n)$ | | 查询 | $O(1)$ | $O(n)$ | - **实现示例**： ```python class HashMap: def __init__(self, size=100): self.size = size self.table = [[] for _ in range(size)] # 链地址法解决冲突 def _hash(self, key): return hash(key) % self.size # 哈希函数示例 def put(self, key, value): index = self._hash(key) for item in self.table[index]: if item[0] == key: item[1] = value return self.table[index].append([key, value]) ``` 2. **布隆过滤器（Bloom Filter）** 使用多个哈希函数实现概率型数据结构，用于快速判断元素是否存在，空间效率比哈希表高$10\times$以上。 #### 三、关键技术实现 1. **哈希函数设计** - 除法散列法：$H(k) = k \mod m$ - 乘法散列法：$H(k) = \lfloor m(kA \mod 1) \rfloor$（$0<A<1$） - 实际工程中常用MurmurHash、CityHash等算法 2. **冲突解决方法对比** | 方法 | 实现方式 | 优点 | 缺点 | |--------------|--------------------------|--------------------|--------------------| | 链地址法 | 链表存储冲突元素 | 简单稳定 | 指针消耗额外空间 | | 开放寻址法 | 线性/二次探测空槽 | 无需额外存储结构 | 容易产生聚集现象 | | 再哈希法 | 使用第二哈希函数重新计算 | 减少聚集 | 计算成本增加 | #### 四、工程实践要点 1. **负载因子控制**：当哈希表填充率超过$0.75$时（Java HashMap的默认阈值），触发扩容重建 2. **动态扩容策略**：通常以$2\times$容量扩展，需重新哈希所有元素 3. **哈希攻击防护**：通过随机盐值防御刻意构造的哈希碰撞攻击 #### 五、典型应用场景 1. 数据库索引（如MySQL的HASH索引） 2. 分布式系统一致性哈希（Cassandra/DynamoDB） 3. 编译器符号表管理 4. 区块链默克尔树构建 5. 缓存系统（Redis键值存储）