通过DRPC和Trident实现数据统计查询与拓扑优化
1. 通过DRPC访问持久化统计数据
在处理数据时,我们已经得到了按艺术家、标题和标签统计的内存计数。为了能查询这些状态对象以构建所需的报告,我们将使用Storm的分布式远程过程调用(DRPC)功能。
以下是按标题和标签统计的代码示例:
TridentState countsByArtist =
playStream
.project(new Fields("title"))
.groupBy(new Fields("title"))
.persistentAggregate(new MemoryMapState.Factory(),
new Count(),
new Fields("title-count"));
TridentState countsByTag =
playStream
.each(new Fields("tags"),
new ListSplitter(),
new Fields("tag"))
.project(new Fields("tag"))
.groupBy(new Fields("tag"))
.persistentAggregate(new MemoryMapState.Factory(),
new Count(),
超级会员免费看
订阅专栏 解锁全文
852

被折叠的 条评论
为什么被折叠?



