
MapReduce
文章平均质量分 93
Monte_CHEN
这个作者很懒,什么都没留下…
展开
-
MapReduce构建倒排索引和压缩倒排索引
目录1 问题说明2 方法和代码2.1 基础倒排索引2.1.1 方法说明2.1.2 代码2.2 采用partitioner的倒排索引2.2.1 方法说明2.2.2 代码2.3 采用gap压缩的倒排索引2.3.1 方法说明2.3.2 代码2.4 采用二进制压缩的倒排索引2.4.1 方法说明2.4.2 代码1 问题说明关于倒排索引的介绍可以参考这篇博客。本文采用MapReduce构建倒排索引并实现对倒排索引的压缩。2 方法和代码2.1 基础倒排索引2.1.1 方法说明基础倒排索引的Mapper先提取原创 2020-11-23 17:27:17 · 1156 阅读 · 1 评论 -
TextPair数据结构
目录1 说明2 代码3 参考资料1 说明写MapReduce程序是,有时需要用的两个Text组成的TextPair这种数据结构,这里给出相应代码。2 代码import org.apache.hadoop.io.Text;import org.apache.hadoop.io.WritableComparable;import org.apache.hadoop.io.WritableComparator;import org.apache.hadoop.io.WritableUtils;i原创 2020-11-17 14:19:50 · 639 阅读 · 0 评论 -
MapReduce计算PMI
目录1 问题说明2 采用pair结构计算PMI2.1 采用pair结构的思路2.2 代码3 采用Stripes结构计算PMI3.1 采用Stripes结构的思路3.2 代码4 总结1 问题说明现有很多篇文档,分别使用pair和stripes两种数据结构,计算语料库中两两单词的互信息PMI,PMI的计算方法为:PMI(x,y)=logp(x,y)p(x)p(y)PMI(x,y)=log\frac{ p(x,y)}{p(x)p(y)}PMI(x,y)=logp(x)p(y)p(x,y)其中,x,yx,原创 2020-11-17 14:12:34 · 1407 阅读 · 3 评论