网络中心数据分区存储与企业集群智能制造信息管理系统解析
网络中心数据分区存储
在系统中进行海量数据存储时,切片主要有两种方式:按范围切片和按哈希切片。存储控制负责数据在不同区域间的传输,系统分为新数据区、高老化数据区和低老化数据区三层。
数据分区存储的实现需要经过多个步骤。由于数据源和格式往往不一致,不利于分区且会降低分区速度,因此在分区前需要对异构数据进行整合。数据整合是将不同来源、格式和特征的数据集成到一个大数据中,以服务后续分区。这里主要通过中央数据仓库技术完成数据整合,其结构如图所示。中央数据仓库的最大优势是能对提取的数据实现最大程度的控制,有效解决数据分散、多样和冗余的问题。
数据整合后,还需要进行进一步的数据处理,包括数据清洗和数据缩减:
- 数据清洗 :找出并纠正数据集中的异常数据,如进行数据一致性检查、处理无效值和缺失值、删除重复数据等。
- 数据缩减 :减少数据量和数据规模。整合后的数据量巨大,若直接用于后续工作,不仅会增加数据量,还会降低分区的准确性。因此,需要对整合后的原始数据进行缩减,包括数据聚合、降维、数据压缩、数据块缩减等。
数据的时效性是数据价值的重要方面。过去,数据时效性的判断主要基于数据在某一时间段内有效,但对于广义数据,仅考虑这一点是不够的。确定数据时效性的算法不多,设计时需考虑数据查询效率和系统资源成本。系统的三级分区设置针对不同分区有不同的开销配置。为提高系统的适应性和可控性,在原有的“一次性失效”和“用户主导”基础上设计了以下时间有效算法,以实现索引资源的可控分配。在时效性判断算法的设计中,主要考虑时效性的可控性。相关公式如
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



