大数据处理实例——Amazon商品评分&评论（四）

最新推荐文章于 2025-06-27 17:22:36 发布

原创

最新推荐文章于 2025-06-27 17:22:36 发布 · 5.8k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#大数据

本文介绍了一种基于ZK集群的实现方式，用于在大数据处理中统计非重复单词个数并为每个单词编号。在Storm Topology的去停用词阶段，通过在ZK上创建节点，并利用ZK监听CHILD_ADD事件来实现单词编号。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

在本系列的第二篇中给出了Storm实时处理框架。其中有提到由于后面的离线学习部分都是基于文本的词频向量，因此需要统计非重复单词个数(向量维度)以及为每个单词编号(该单词词频所在列)。本篇就重点介绍自己基于ZK集群的实现方式

分析

我自己的想法就是在Storm Topolopy的去停用词阶段(StopWordsFilterBolt)为每一个新单词在ZK指定路径上创建一个新的节点。同时启动一个ZK listener监听指定路径的CHILD_ADD事件，来为每个单词编号。

实现

(1) 在StopWordsFilterBolt中为新单词创建新节点
这里写图片描述

(2) ZK listener监听处理


public class ZKPathListener implements PathChildrenCacheListener {
    private static final Log LOG = LogFactory.getLog(ZKPathListener.class);
    private PathChildrenCache pathChildrenCache;
    private int curIndex = 0;

    public void childEvent(CuratorFramework client, PathChildrenCacheEvent event) throws Exception {
        switch (event.getType()) {
            case CHILD_ADDED:
                //监听到新增节点时，为该节点写入编号值
                Strin