分布式 CDR 流分析与广域网优化服务
分布式 CDR 流分析
随着数据量的快速增长和对低延迟的迫切需求,流管理系统(DSMSs)需要从“先加载后分析”的模式转变为“即时分析”模式。然而,当前的 DSMS 与查询引擎是分开构建的,这导致数据库和应用程序之间的数据往返传输量巨大,成为性能和可扩展性的瓶颈。此外,独立的 DSMS 缺乏成熟数据库系统的强大功能,随着流处理应用从简单向复杂发展,这些技术可能需要重新开发。
为了解决这些问题,研究人员基于扩展的 PostgreSQL 引擎开发了一个原型,用于流处理和数据仓库的平台集成。该方法具有以下特点:
1. 支持无界流数据的连续查询(CQ) :通过集成函数和数据源的概念,用函数扫描取代表扫描,将实时捕获的事件转换为无界关系数据。特别提供了一种名为流源函数(SSF)的表函数,它可以直接返回元组序列来供查询使用,而无需先将数据存储在磁盘上。SSF 可以监听或读取 CDR 序列,并连续地逐个生成流元素。当检测到数据结束事件或条件时(可能是事件源耗尽或用户交互导致),SSF 会向查询引擎发出信号,终止查询执行。只要数据流不结束,查询就不会结束。
2. 基于时间窗口同步多个 SAE 的操作 :为了同步多个 SAE 的操作,需要解决如何将 SQL 查询逐块应用于连续时间窗口内的无界 CDR 数据的问题,同时持续跟踪执行历史,以支持基于滑动窗口的历史敏感操作。采用了“切割 - 回退”方法,即根据时间窗口或其他边界条件切割查询执行,然后在不关闭的情况下回退,以处理下一块流数据。这种机制允许将具有完整 SQL 表达能力的查询循环应用于流数据块,并在执行周期内持续维护所需的状态。
分布式CDR分析与广域网优化
超级会员免费看
订阅专栏 解锁全文
3012

被折叠的 条评论
为什么被折叠?



