梁敬彬梁敬弘兄弟出品
往期回顾
七座城堡⓵ OLTP(上)
七座城堡⓵ OLTP(下)
七座城堡② OLAP(上)
七座城堡② OLAP(下)
七座城堡③ HTAP(上)
七座城堡③ HTAP(下)
14. 从数据3.0时代走向4.0时代
很快,HTAP城堡建好了,老王在老柯的陪同下登上了HTAP城堡的最高处,看着井然有序工作着的三个城堡,老王很是满意,心想现在不会再遇到什么困难了吧。于是转头问老柯:“ HTAP城堡建成后,效果如何?”
老柯:效果很不错,现在实时分析的场景基本都在这个城堡内完成,让许多业务在决策性的速度和准确性上有了极大提升。有一件事跟您请示一下,目前三座数据库城堡给我们国家带来了很大的便利,受欢迎程度很高,因此使用率也居高不下,目前我们团队正在考虑将各个城堡的规模做进一步的扩容,但是这个扩容会需要增加不少成本,您看如何?
老王:没事,能推进国家进步的投入我是支持的,该花的钱就要花!
老柯:老王英明!我这里还有一件重要事要和您商议,咱们还需要增加新的投入,我计划建造一个时序数据库城堡,来解决国家发展过程中急需解决的问题。
老王(吓了一跳):什么,又要再建城堡!
老柯:您还记得我们讨论的快乐王国数据1.0时代,2.0时代和3.0时代吗?”
老王:记得,不会4.0时代就来了吧。”
老柯:是的,快乐王国数据1.0时代只有部分公民的个身份信息与关联信息;快乐王国数据2.0时代是所有公民的完整身份信息并走向身份核验,能证明你是你;快乐王国数据3.0时代是身份信息从单一公民属性走向多属性集合,开始证明你是一个什么样的人。基础信息的完善带动了全方位各领域数据的完善,支撑着我们国家的进步和发展。不过,无论快乐王国数据1.0时代还是2.0时代还是3.0 时代,他们都有一个共同的特点,就是都是围绕着人,而接下来,我们要拥抱新的成员了,那就是物,物其实和我们人一样,也是有身份信息的,同样能留下各种数据。融合进物的时代就是快乐王国数据4.0时代,拓展到万物属性到集合,人是物到一部分,是物的子集。我们不仅需要知道人是什么样的人,也要知道物是什么样的物,比如通过流水线各设备的运行状态收集,让人明白这些设备是什么样的设备,能否胜任当下工作。
老王:很好,时代不断进步啊!4.0时代有啥特点?”
15. 令人惊讶的数据规模
老柯:以我们国家某大型车企为例,其产线需要收集产线的各设备指标状态,以确保设备能工作正常。以某涂装设备1的温度指标为例,假如8点开始收集,每1分钟收集一次,该设备将产生类似:8点1分50度,8点2分51度,8点3分51.5度…这样的一组按时间顺序记录的连续数据,这类数据就是时序数据(Time Series Data)。
老王:时序数据?刚才你说的要建立时序数据库城堡,就是要处理这类数据啊,听起来这类数据的结构很简单啊,咱们的OLTP城堡不能应对吗?
老柯:这个问题问的好!我先往下说,后面您慢慢会明白的。刚提到的那个设备,可以形成了一条以时间为横轴,以温度为纵轴的一条曲线,这就形成了趋势图,就能进行趋势分析。如果某时间点的温度值超出了阈值的范围,则立即进行预警。时序数据有趣的地方在于无需聚合于关联,却能一目了然的完成一些分析监控行为,而且实时性非常高。此外时序数据和机器学习能有效的结合在一起,能挖掘出更多价值,如设备运行在什么样的温度下是最佳的,设备什么时候需要更换等等。关于时序数据应用也是极其宽广,这里我就不做展开介绍了。现在我来告诉您为什么现有城堡难以支撑,其实最大的挑战就四个字:数据规模。
老王:哦,数据规模能有多大?
老柯:非常大!在时序数据场景中,影响数据规模的主要有3个要素,设备指标数、采集频率和设备数。先说设备指标数,我示例的设备ID1仅展示1个指标,而现实中该设备可能还会采集压强、扭矩、湿度、电流、电压等数百个乃至成千上万的指标。接着是采集频率,我的示例是1分钟采集一次,现实中可能是每秒甚至每毫秒采集一次。再有就是设备数,物是要比人多得多,工厂中参与的设备数往往成千上万。
此外时序还存在一些复杂场景,比如指标数不仅多,类型可能也很多。比如采集频率不仅高,还会出现异频上传的情况,即各个指标采集频率不同,有时还会出现乱序上传的情况,比如故障原因未传,下次恢复正常上传时变成后一批数据了。比如采集设备不仅多,设备和设备之间还有可能存在嵌套关系,比如某设备在在采集,其零配件也在采集,也是设备。这些都需要在数据库中进行专门的处理。”
老王:听起来时序数据不仅规模很庞大而且还很复杂,你有很多是假设,能否量化一下具体的数据量。
老柯:OK,该车企在市面大约有100万辆车,每辆车每秒钟采集8000个指标的数据。假设都是浮点数指标,每个浮点数占⽤8个字节,那1秒采集80亿数据点,将占用64GB空间。假设车子一天运行3个小时将采集86.4万亿点,占用空间697.2TB;1个月约20PB。现在您感受到时序规模的可怕了吗?
老王: 确实很吓人,这还只是一家车企的数据啊。”
老柯:是的,我从车的制造过程开始举例,是想说明车的整个生命周期都有涉数据采集和分析。此外各行各业都有这样类似的场景需求,或许更多的业务是24小时不间断,而不是一天仅采集3小时。所以整体数据规模将难以想象。未来将是人和物的数据结合的快乐王国数据4.0时代,这个数据总规模将难以想象。当然了,快乐王国数据4.0时代本身也是一个渐进的过程,也远没到万物互联这个程度,不过我们要开始把这基础设施逐步做起来,为万物互联的快乐王国数据4.0时代打好基础。
未完待续…
系列回顾