文档最近邻查询与互联网视频流量识别技术解析
1. 文档最近邻查询算法
在文档处理中,最近邻查询是一项重要的任务。这里介绍了两种基于MapReduce框架的文档最近邻查询算法:暴力法(brute - force)和预过滤法(pre - filtering)。
1.1 复制和邻居查询阶段算法
以下是复制和邻居查询阶段的算法代码:
Algorithm 4. Copying and neighbors query phases
Input: ⟨−sim, ⟨docidi, docidj⟩⟩
Output: ⟨⟨docidi, −sim⟩, docidj⟩, ⟨⟨docidj, sim⟩, docidi⟩
1 map(key, value){
2 if HashMap.get(docidi) == null then
3 write(docidi | −sim, docidj);
4 HashMap.put(docidi, 1))
5 else if HashMap.get(docidi) < k then
6 write(docidi | −sim, docidj);
7 HashMap.put(docidi, HashMap.get(docidi) + 1))
8 if HashMap.get(docidj) == null then
9 write(docidj | −sim, docidi);
10 HashMap.put(docidj, 1))
11 else if HashMap.get(docidj) < k then
12 w
超级会员免费看
订阅专栏 解锁全文
1049

被折叠的 条评论
为什么被折叠?



