文档最近邻查询与互联网视频流量识别技术解析
文档最近邻查询算法
在文档处理领域,最近邻查询是一个重要的任务,涉及到对文档之间相似性的计算和比较。这里介绍了两种基于 MapReduce 框架的算法:暴力法(brute-force)和预过滤法(pre-filtering)。
复制和邻居查询阶段算法
以下是复制和邻居查询阶段的算法代码:
Algorithm 4. Copying and neighbors query phases
Input: ⟨−sim, ⟨docidi, docidj⟩⟩
Output: ⟨⟨docidi, −sim⟩, docidj⟩, ⟨⟨docidj, sim⟩, docidi⟩
1 map(key, value){
2 if HashMap.get(docidi) == null then
3
write(docidi | −sim, docidj);
4
HashMap.put(docidi, 1))
5 else if HashMap.get(docidi) < k then
6
write(docidi | −sim, docidj);
HashMap.put(docidi, HashMap.get(docidi) + 1))
7 }
8 if HashMap.get(docidj) == null then
9
write(docidj | −sim, docidi);
10
HashMap.put(docidj, 1))
11 else if HashMap.get(docidj) < k then
12
write(docidj | −sim, docidi)
超级会员免费看
订阅专栏 解锁全文
1050

被折叠的 条评论
为什么被折叠?



