6、文档最近邻查询与互联网视频流量识别技术解析

文档最近邻查询与互联网视频流量识别技术解析

1. 文档最近邻查询算法

在文档处理中,最近邻查询是一项重要的任务。这里介绍了两种基于MapReduce框架的文档最近邻查询算法:暴力法(brute - force)和预过滤法(pre - filtering)。

1.1 复制和邻居查询阶段算法

以下是复制和邻居查询阶段的算法代码:

Algorithm 4. Copying and neighbors query phases
Input: ⟨−sim, ⟨docidi, docidj⟩⟩
Output: ⟨⟨docidi, −sim⟩, docidj⟩, ⟨⟨docidj, sim⟩, docidi⟩
1 map(key, value){
2 if HashMap.get(docidi) == null then
3     write(docidi | −sim, docidj);
4     HashMap.put(docidi, 1))
5 else if HashMap.get(docidi) < k then
6     write(docidi | −sim, docidj);
7     HashMap.put(docidi, HashMap.get(docidi) + 1))
8 if HashMap.get(docidj) == null then
9     write(docidj | −sim, docidi);
10    HashMap.put(docidj, 1))
11 else if HashMap.get(docidj) < k then
12    w
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值