0919 案例*2

原创于 2019-09-19 21:30:39 发布 · 162 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

1 pagerank

a b d b c c a b d b c

需要计算趋于稳定阶段的pr值

先考虑main 是一个多次反复拿上一次任务输出当做输入路径提交任务的过程 2、为了趋于稳定需要那当前的rp值和上一次rp值计算当趋于稳定时可以停止提交任务。所以计算rp稳定可以在reducer里完成在main里做判断完成则跳出无限循环 3 可以定义context的计数器完成 job.getCounters().findCounter(myCounter.MY_COUNTER).getValue(); 4、在main里可以使map阶段的接收类型<偏移量，value> -> <\t的前一组字符，\t的后面字符> job.setInputFormatClass(KeyValueTextInputFormat.class);

a,b d b,c c,a b d,b c 在map端完成b,1/2 d,1/2 ....的计算输出为了reduce新老的计算还要输出 a , 1/2 b d 同时还要考虑到第一次进来的数据处理的问题

在reducer阶段会接到 b,1/2 和 a, 1/2 b d 两种数据拆分后分别计算最后形成新的 a, 1/4 b d 的形式输出（因为要做下一轮回的map输入）最后在main中可以在输出路径中加一个执行次数的变量conf.setInt("runCount", index); 吧index拼接在输出路径的后面完成每次的输入是上一次的输出。

理解如何转换键值对

2 tf-idf

分3步第一步统计分词后的词 a-文件编号，1 D 文件总数 map中读一行即一个文件

第二步逆向文件频率分词，1

第三步取 1 2 结果计算tf-idf

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。