物联网数据分析的数据组织与经济考量
在物联网数据分析领域,数据的有效组织和经济成本的合理控制是至关重要的两个方面。下面将详细介绍数据组织的策略以及物联网分析项目的经济考量。
数据组织策略
在进行数据分析之前,对成熟数据集进行评估并转移到生产环境是一个关键步骤。这些数据集通常更具项目针对性,并且已经通过了所有测试。一旦转移到生产环境,未来的更改应尽量减少。此时,数据集的控制权应移交给一个独立的团队进行维护和提供服务级别支持。
数据保留策略
即使是大数据,最终也可能变得过于庞大且维护成本高昂。在设计物联网数据的保留策略时,需要考虑两个目标:
- 保持价值 :像深度学习这样的高级建模技术需要大量的历史数据来最大化预测效果。而且很难提前知道哪些字段对未来未知的项目有价值。传统的固定期限存储记录然后删除整个数据集的策略可能会导致失去盈利机会。
- 最小化成本 :物联网数据增长迅速,即使使用基于云的 HDFS 存储,成本也可能很高。永久保留所有数据的成本可能超过其提供的价值。数据越容易访问,成本就越高。因此需要做出一些妥协来降低成本。
为了实现这两个目标,可以采用以下三种数据保留策略:
1. 降低数据可访问性
- 压缩 :使用 Avro 和 Parquet 等压缩格式可以显著减少 Hadoop 集群和 S3 文件夹中的存储大小,从而降低成本,同时通常还能提高性能。HDFS 也支持 GZIP 和 Snappy 等其他压缩格式。
- 更
超级会员免费看
订阅专栏 解锁全文
1065

被折叠的 条评论
为什么被折叠?



