数据流上并行天际线连接的高效算法与数据中心气流故障模型研究
1. 数据流上并行天际线连接算法性能评估
在处理数据流时,天际线连接是一个重要的操作。为了提高其处理效率,提出了两种并行天际线连接算法:NP - SWJ和IP - SWJ。
1.1 实验设置
- 硬件环境 :实验在配备Intel Xeon 2.2 GHz CPU和64 GB RAM的服务器上进行,所有算法使用Java实现。
- 数据集 :
- 合成数据集 :基于相关、独立和反相关分布生成。
- 真实数据集 :采用Intel Berkeley Research(IBR)实验室的传感器数据流,包含约230万行数据,来自54个传感器。该数据集有12个属性,实验仅使用moteid、temperature、humidity、light和voltage这5个属性,其中moteid作为连接属性,其余为天际线属性。去除不完整或无效记录(值为负)后,数据集约有190万行,并将其分成两个大小相等的数据集。其数据结构如下表所示:
| 字段 | 类型 |
| ---- | ---- |
| date | yyyy - mm - dd |
| time | hh:mm:ss.xxx |
| epoch | int |
| moteid | int |
| temperature | real |
| humidity | real |
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



