数据科学中的局部敏感哈希、图与网络分析
1. 局部敏感哈希(LSH)
局部敏感哈希(LSH)与传统用于加密应用或管理哈希表的哈希函数目标完全相反。传统哈希函数旨在确保相似项对产生截然不同的哈希值,以便识别变化并充分利用哈希表的范围。而 LSH 希望相似项获得完全相同的哈希码,从而通过碰撞来识别相似性,最近邻会被分配到同一个桶中。
LSH 在数据科学中除了最近邻搜索之外还有其他应用。其中最重要的可能是从复杂对象(如视频或音乐流)构建压缩特征表示。从这些流的间隔构建的 LSH 代码定义了数值,这些数值可能适合作为模式匹配或模型构建的特征。
2. 图、网络与距离
2.1 图的定义
图 (G = (V, E)) 定义在一组顶点 (V) 上,包含一组由 (V) 中顶点的有序或无序对组成的边 (E)。例如,在建模道路网络时,顶点可以代表城市或路口,某些顶点对通过道路(边)直接相连;在分析人类交互时,顶点通常代表人,边连接相关的人对。
2.2 现代数据集的图模型
许多现代数据集可以自然地用图或网络来建模:
- 万维网(WWW) :图中的每个顶点代表一个网页,如果网页 (x) 包含指向网页 (y) 的超链接,则存在一条有向边 ((x, y))。
- 产品/客户网络 :在有许多客户和产品类型的公司(如亚马逊、Netflix 或街角杂货店)中会出现。有两种类型的顶点,一组代表客户,另一组代表产品。边 ((x, y)) 表示客户 (x) 购买了产品 (y)。
- 基因网络
局部敏感哈希与图网络分析
超级会员免费看
订阅专栏 解锁全文
1053

被折叠的 条评论
为什么被折叠?



