论文成果总结
2024 年度,时序数据库 IoTDB 在数据库领域 CCF-A 类国际会议上共发表论文 8 篇,包括:SIGMOD 3 篇、VLDB 3 篇、ICDE 2 篇,涵盖存储、引擎、查询、分析等方面。
2024 最后一天,我们将分类盘点 IoTDB 本年的论文成果及核心技术创新内容:
在存储方面,Apache TsFile 作为一种专为物联网时间序列数据设计的文件格式,通过优化数据组织和索引结构,实现了高效的数据存储和查询。REGER 方法通过重排序时间序列数据点来优化回归编码,旨在降低存储成本。
在引擎方面,针对 Apache IoTDB 中的 LSM-tree 架构,我们提出了多列合并(MCC)策略,有效解决了空间放大问题。通过 Raft 共识协议在 Apache IoTDB 中的系统性调优,提升高吞吐量物联网场景下的系统性能。
在查询方面,我们提出了版本化的时间序列数据模型,以及针对版本化数据的查询优化技术,提高了数据的查询效率。此外,还提出了随机摘要方法来确定精确分位数,为数据分析提供了高效解决方案。
在分析方面,LSMOD 方法优化了 Apache IoTDB 中的异常点查询,提高了异常检测的效率。M4-LSM 方法结合了 M4 采样方法和 LSM-Tree 存储结构,优化了时间序列数据的可视化性能。
这些创新技术为物联网应用提供了强有力的支持,并有望在未来发挥更加重要的作用。

存储
VLDB 2024: Apache TsFile: An IoT-native Time Series File Format
🎯Apache TsFile:物联网时间序列数据的专属文件格式
✍️第一作者:赵鑫
在物联网(IoT)领域,时间序列数据扮演着至关重要的角色。这些数据记录了设备在特定时间点的状态或测量值,对于设备监控、预测分析以及决策支持等应用具有重要意义。然而,传统的文件格式在处理物联网时间序列数据时存在诸多不足,如性能瓶颈、存储冗余等问题。为了解决这些挑战,Apache TsFile 应运而生。
Apache TsFile 是一种专门为物联网时间序列数据设计的文件格式。它充分考虑了物联网数据的特性,如设备众多、数据量大、时间戳有序等,从而实现了高效的数据组织和存储。TsFile 将数据按照设备进行划分,每个设备的数据被组织成一系列的数据块(Chunk),每个数据块包含该设备在特定时间段内的数据。这种组织方式不仅提高了数据的压缩效率,还使得数据在设备级别和文件系统块级别上具有良好的局部性。
除了数据组织方式的优化,TsFile 还采用了高效的索引结构来加速数据查询。它基于 B 树实现了索引区域,能够快速地根据设备 ID、时间范围或值范围等查询条件定位到数据区域中的具体位置。此外,TsFile 还提供了丰富的 API 接口,方便用户进行数据的写入、读取和查询等操作。
在性能评估方面,Apache TsFile 与其他常用的文件格式(如 Parquet、Arrow)进行了对比。实验结果表明,TsFile 在存储空间、写入速度和查询延迟等方面均表现出色,特别是在处理大规模物联网时间序列数据时,其性能优势更加显著。
总之,Apache TsFile 是一种专为物联网时间序列数据设计的文件格式,它通过优化数据组织和索引结构,实现了高效的数据存储和查询,为物联网应用提供了强有力的支持。

🗂全文链接:
https://doi.org/10.14778/3685800.3685827
ICDE 2024: REGER: Reordering Time Series Data for Regression Encoding
🎯REGER:时序数据重排序编码方法
✍️第一作者:肖今朝
2024年IoTDB论文成果及核心技术创新

最低0.47元/天 解锁文章
2444

被折叠的 条评论
为什么被折叠?



