数据湖集成设计与数据传输工具详解
1. 事件处理类型与复杂事件处理
常见的事件处理类型有以下几种:
- 聚合(Aggregation) :在时间窗口或一定数量的事件内聚合值,如求和、求平均值等。
- 模式检测(Pattern detect) :识别一段时间(分钟/小时/天)内的事件组合。
- 过滤(Filtering) :移除匹配特定值或类别/类型的事件。
- 计算(Calculations) :使用类似 SQL 的查询语言或 Java 进行数值处理。
- 阈值(Thresholds) :为事件定义可接受的最小或最大属性值。
- 转换/转换(Transform/Convert) :应用数据转换处理,转换数据类型、数据值等。
- 推导(Derive) :使用统计或预测模型估计或推断数据值。
复杂事件处理涉及一起处理一系列相关事件,以识别模式和相关性。例如,当温度低于 32 度、轮胎气压低且正在下雪时,宝马汽车会显示缓慢刹车的警告信息。
2. 事件流处理(ESP)工具
2.1 开源工具
Apache 基金会为 ESP 提供了优秀的开源选项,如 Samza、Spark、Storm 和 Flafka(Flume + Kafka)。