关于hashing

The most important techniques behind Yahoo! are: hashing, hashing and hashing!
——前雅虎首席科学家Udi Manber
 
计算机科学中的一类基本问题是如何在内存中找到一段指定的信息(a “key”),这类问题常常被称为字典问题( dictionary problem)。对这类问题可以提出很多解决方案,但考虑的关键因素之一就是:如何在数据量快速增长的同时仍然保证查找的速度。Hashing就是满足这个条件的一种高效解决方案。
 
在解释hashing之前先来看一看key这个概念。根据NIST的定义,key是一组数据中的一部分,通过这部分信息来存储、索引整组信息。比如如果要给一组客户记录排序,就可以将客户姓名选作key,从而根据姓名按照字典序排列。这里要注意的一点是,key的选择不是绝对的,在不同的应用场合下,对同一组信息可能选择不同的key。例如,如果要将上面提到的客户记录作成财务汇报,那么key就可以选作客户的交易金额,从而根据交易金额进行排序。
 
Key的取值范围通常很大并且分布不均,哈希函数的目的就是将key映射到分布相对均匀且较小的整数集合。从很大的集合到较小的集合,从分布不均到分布均匀,这是哈希函数的两个基本特点。对于哈希函数的使用者来说,哈希函数既有随机性,又有确定性。随机性是指给定一个key,哈希函数的使用者完全不能预测这个key到底会被映射到哪个整数;确定性是指给定一个key,同一个哈希函数总会将它映射到同一个整数。
 
哈希函数的随机性保证了其对输入key的加密特性。通常情况下,哈希函数的输出值能够唯一标识输入的key,因此就像现实世界中的“指纹”能够唯一标识一个人一样,哈希函数的输出值也被叫做“数字指纹”(digital fingerprint)。当然,这只是哈希函数期望达到的境界,理论上由于哈希函数将大集合映射到了小集合,碰撞的可能一定存在。最近,山东大学的 王小云 教授(已经被挖到了清华)就破解了国际上流行的MD5和SHA-1两大哈希算法,在密码界引起了轩然大波。实际上,破解的过程就是进行碰撞攻击(collision attack),从而找到两个key映射到同一输出值的情况,这样就可以伪造数字指纹。
 
哈希函数的输出值能够唯一标识一个key,这本身就反映了哈希函数的确定性。在哈希表中,哈希函数被用来生成key的存储地址,正是由于确定性的存在,使得存储后的查找成为可能。哈希表最大的特点,就是它不随数据量的增大而速度变慢,因为记忆数据存储位置的任务交给了哈希函数。每一次查找数据的时间都是恒定的,即哈希函数的计算时间(不考虑碰撞的情况下)。这里我们可以看到哈希函数另一大作用:作为存储信息的载体。
 
如果我们想记录某个集合的哈希表地址,一般情况下我们会考虑将这个集合的哈希表地址存储在内存中,这无疑要消耗大量的空间,而且常常不可实现。在计算机科学中,时间换空间的情况经常发生,这里再一次印证了这个观点。为了不占用内存,我们设计合适的哈希函数来存储地址信息,在需要新的地址时,通过占用一定的CPU时间算出新地址。如同不同的情况下存储模式不同一样,在不同的应用场合中,也需要设计满足特定要求的哈希函数。例如,密码学中的哈希算法更多地考虑如何躲避恶意的攻击和伪造,而用在检错和纠错领域的哈希算法则更多地考虑如何将改动过的数据区分开来。具体的哈希算法会在后面介绍,这里就不多讲了。
### Voxel Hashing 技术详解 Voxel hashing 是一种用于高效存储和访问三维空间数据的技术,在计算机图形学和3D建模领域广泛应用。它通过将连续的三维空间划分为离散的小立方体(即体素),并利用哈希表来快速定位这些体素的位置。 #### 基本原理 Voxel hashing 的核心在于使用稀疏的数据结构表示三维场景中的体素[^1]。由于大多数实际应用中的三维模型并不完全填充整个空间,因此采用稠密数组会浪费大量内存资源。相反,voxel hashing 使用哈希函数将体素映射到一个紧凑的哈希表中,从而显著减少所需的存储量。 #### 数据结构设计 为了支持高效的查询操作,通常需要定义如下几个关键组件: - **Hash Function**: 将三维坐标 `(x, y, z)` 转换为唯一的键值,以便索引对应的哈希桶。 ```cpp uint64_t hash(uint32_t x, uint32_t y, uint32_t z) { const uint64_t prime = 73856093; return (uint64_t(x * prime ^ y * prime ^ z * prime)) % TABLE_SIZE; } ``` - **Table Entry Structure**: 每个哈希表条目保存有关该体素的信息,例如其位置、属性或其他元数据。 ```cpp struct VoxelEntry { int position_x, position_y, position_z; // 体素的空间位置 float density; // 密度或颜色等属性 bool occupied; // 是否被占用标志位 }; ``` #### 查询与更新机制 当程序接收到一个新的点云或者网格顶点时,可以通过以下方式将其分配至最近的体素单元,并执行相应的处理逻辑: 1. 计算目标点所属的体索单元编号; 2. 利用上述提到的哈希函数计算出对应于该体素的哈希槽地址; 3. 如果发现冲突,则尝试线性探测法解决碰撞问题直至找到空闲位置为止;如果未发生冲突则直接写入即可完成新增记录过程[^2]。 此外还需要注意边界条件以及溢出保护措施等问题以免造成错误结果输出甚至崩溃现象的发生。 ```python def insert_voxel(voxels_table, point_position): """Insert a new voxel into the table.""" key = compute_hash(point_position) while voxels_table[key].occupied and not compare_positions(voxels_table[key], point_position): key += 1 # Linear probing to resolve collisions if not voxels_table[key].occupied: initialize_entry(voxels_table[key], point_position) ``` 以上就是关于如何实现基于hash map方法来进行动态管理大规模复杂几何对象集合的一个简单介绍[^3]。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值