IoT数据管理与处理技术全解析
1. 数据湖与数据处理
在处理高速、大量的数据时,Kafka、Storm和Flume是不错的技术选择。数据湖是一个重要的概念,它能存储结构化和非结构化数据,实现灵活的数据处理,让数据具备敏捷性和智能性。
数据湖的一大优势是采用“读时模式(schema - on - read)”,在数据摄入时无需进行模式设计,而是在读取数据时进行。它借助NoSQL、分布式文件系统、JSON存储等技术,以无模式写入和基于模式读取的方式存储数据。这种模式在数据消费和处理各种数据格式时非常有用。当数据被摄入、清理并存储在数据湖的结构化SQL存储(如HIVE)中后,就可以重用现有的SQL脚本检索数据并创建视图。此外,数据湖还能结合分布式计算和高级分析(包括深度学习算法),利用大量数据进行实时决策分析。
2. IoT数据管理与处理技术架构
2.1 参考架构概述
IoT数据服务平台的参考架构包含多个技术组件,如数据湖、主数据管理、知识提取和索引以及各种数据摄入技术。该架构的抽象组件可避免技术和供应商锁定情况。
2.2 各层架构详细介绍
-
存储层 :数据有形状(或模型)和语义两个关键特征。不同的数据形状适合不同的数据管理系统,例如事件数据适合存储在键值存储中,半结构化数据适合存储在面向文档的数据库(如MongoDB)中。其他数据形状还包括图数据、关系和表格数据、多媒体数据等。存储层采用“多语言持久化(polyglot persistence)”概念,允许应用程序根据数据的使用方式选择合适的存储系统,但这也带来了定位和使用数据的新挑战
超级会员免费看
订阅专栏 解锁全文
1915

被折叠的 条评论
为什么被折叠?



