背景
在本系列的第二篇中给出了Storm实时处理框架。其中有提到由于后面的离线学习部分都是基于文本的词频向量,因此需要统计非重复单词个数(向量维度)以及为每个单词编号(该单词词频所在列)。本篇就重点介绍自己基于ZK集群的实现方式
分析
我自己的想法就是在Storm Topolopy的去停用词阶段(StopWordsFilterBolt)为每一个新单词在ZK指定路径上创建一个新的节点。同时启动一个ZK listener监听指定路径的CHILD_ADD事件,来为每个单词编号。
实现
(1) 在StopWordsFilterBolt中为新单词创建新节点
(2) ZK listener监听处理
public class ZKPathListener implements PathChildrenCacheListener {
private static final Log LOG = LogFactory.getLog(ZKPathListener.class);
private PathChildrenCache pathChildrenCache;
private int curIndex = 0;
public void childEvent(CuratorFramework client, PathChildrenCacheEvent event) throws Exception {
switch (event.getType()) {
case CHILD_ADDED:
//监听到新增节点时,为该节点写入编号值
Strin