分布式查询处理与物联网云环境自适应交互支持
1. 分布式查询处理相关技术
1.1 Sort - Merge - Join算法
Sort - Merge - Join用于对数据集A和B进行连接操作。具体步骤如下:
1. 对数据集A和B分别执行外部排序,按连接属性排序,得到排序后的sortedA和sortedB。
2. 当sortedA或sortedB还有输入元组时:
- 如果sortedA和sortedB的连接属性值匹配:
- 从sortedA和sortedB的元组组合输出元组到O。
- 如果O填满一个数据包,组合数据包并发送,然后清空O。
- 检索下一个sortedA和sortedB元组。
- 否则:
- 根据排序顺序,从sortedA或sortedB中获取较小的元组作为下一个元组,替换相应的输入元组。
该算法使用的资源如下:
|资源类型|说明|
| ---- | ---- |
|IO (flash)|n为数据集中的元组数量,σ为选择性|
|IO(sort A) + IO(sort B) + σAnA + σBnB|排序和处理所需的IO操作|
|最小数据内存|排序时为sizeOf(S),之后为sizeOf(A) + sizeOf(B) + sizeOf(O)|
1.2 StreamOp架构
StreamOp是一种应用级中间件,将一个或多个网络视为分布式系统,每个计算设备都是一个流引擎,具有通用的计算、存储和数据交换功能,整个分布式系统是一个分布式流处理系统。
超级会员免费看
订阅专栏 解锁全文
930

被折叠的 条评论
为什么被折叠?



