大数据处理实例——Amazon商品评分&评论(四)

本文介绍了一种基于ZK集群的实现方式,用于在大数据处理中统计非重复单词个数并为每个单词编号。在Storm Topology的去停用词阶段,通过在ZK上创建节点,并利用ZK监听CHILD_ADD事件来实现单词编号。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

背景

在本系列的第二篇中给出了Storm实时处理框架。其中有提到由于后面的离线学习部分都是基于文本的词频向量,因此需要统计非重复单词个数(向量维度)以及为每个单词编号(该单词词频所在列)。本篇就重点介绍自己基于ZK集群的实现方式

分析

我自己的想法就是在Storm Topolopy的去停用词阶段(StopWordsFilterBolt)为每一个新单词在ZK指定路径上创建一个新的节点。同时启动一个ZK listener监听指定路径的CHILD_ADD事件,来为每个单词编号。

实现

(1) 在StopWordsFilterBolt中为新单词创建新节点
这里写图片描述

(2) ZK listener监听处理


public class ZKPathListener implements PathChildrenCacheListener {
    private static final Log LOG = LogFactory.getLog(ZKPathListener.class);
    private PathChildrenCache pathChildrenCache;
    private int curIndex = 0;

    public void childEvent(CuratorFramework client, PathChildrenCacheEvent event) throws Exception {
        switch (event.getType()) {
            case CHILD_ADDED:
                //监听到新增节点时,为该节点写入编号值
                Strin
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值