分布式流处理与虚拟化平台调度优化
1. 分布式流处理系统中的 Squirrel 框架
1.1 分组策略
在分布式流处理中,下游任务间的单词重新平衡采用了洗牌分组(shuffle grouping),而通过哈希操作聚合键的归约阶段则使用键分组(key grouping)。
1.2 性能对比
1.2.1 处理延迟
在单词计数(WordCount)和广告拓扑(AdvertisingTopology)任务中,对 Squirrel 和原始的 Flink 进行了处理延迟(即平均元组执行时间)的对比。结果如下表所示:
| 系统 | 单词计数平均元组执行时间(ms) | 广告拓扑平均元组执行时间(ms) |
| ---- | ---- | ---- |
| Squirrel | 1.03 | 1.62 |
| Flink | 1.91 | 3.26 |
实验结果表明,Squirrel 最多可将平均元组执行时间提高 47%。
1.2.2 吞吐量
在单词计数和广告拓扑任务中,Squirrel 和 Flink 的吞吐量对比如下:
| 系统 | 单词计数平均吞吐量(tuples/s) | 广告拓扑平均吞吐量(tuples/s) |
| ---- | ---- | ---- |
| Squirrel | 91624 | 127209 |
| Flink | 57162 | 76173 |
Squirrel 相较于 Flink,平均系统吞吐量实现了 1.67 倍的提升。
超级会员免费看
订阅专栏 解锁全文
1382

被折叠的 条评论
为什么被折叠?



