hadoop
慢悠悠的熊仔
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
热点词汇抽取:IKAnalyzer + Lucene + MapReduce
本文记录了最近在做中文热点词汇抽取的过程。首先,需要一个中文分词器,我选择了IKAnalyzer。第二,为了处理同义词,使用了Lucene。第三,考虑到数据量,使用了MapReduce。经过IKAnalyzer和Lucene的处理,测试文本将被切分成无同义词的词的集合,然后再用MapReduce对各个词做词频统计,和WordCount的过程一样,这就是第一个job做的事情。第一个job结束原创 2016-03-09 16:06:44 · 951 阅读 · 0 评论 -
Hadoop Zookeeper HBase 启动后进程
1. 版本和配置Hadoop 2.2.0, Zookeeper 3.4.6, HBase 0.986台机器,使用单独的Zookeeper,未使用HBase自带的。2. 启动和关闭顺序启动:Hadoop -> Zookeeper -> HBase关闭:HBase ->Zookeeper -> Hadoop3. 启动后进程(使用jps查看)(1) Hadoo原创 2016-03-27 14:33:25 · 1578 阅读 · 0 评论
分享