
hadoop
meisei81
这个作者很懒,什么都没留下…
展开
-
hadoop 倒排索引
倒排索引是文档检索系统中最常用的数据结构,被广泛的应用于全文搜索引擎。它主要用来存储某个单词(或词组),在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来查找文档的方式,由于不是根据文档来确定文档所包含的内容,而是进行了相反的操作,因而被称为倒排索引。假设在inver原创 2011-10-14 10:44:41 · 5334 阅读 · 5 评论 -
mapreduce读取sequencefile文件中的数据
sequencefile中的数据是以key,value对存储的。通过mapreduce模式,可以读取sequencefile中的数据。public class MapReduceReadFile { private static SequenceFile.Reader reader = null; private static Configuration conf = new Config原创 2011-10-24 17:45:02 · 5114 阅读 · 5 评论