简介
为处理日益增长的互联网数据,众多的工具开始出现,最流行的应该是Hadoop体系。除使用大家所熟悉的Hadoop组件如HDFS、MapReduce、HBase和Hive外,通用的大数据处理平台往往还使用Kafka或其他消息队列工具,Redis或其他缓存软件,Flink或其他实时流式数据处理软件。存储上也有人选用MongoDB,Cassandra或其他NoSQL数据库。这样一个典型的大数据处理平台基本上能很好的处理互联网行业的引用,比如典型的用户画像、舆情分析等等。
很自然,在物联网、车联网、工业互联网起来后,大家都想到的是用通用的大数据处理平台来处理它们的数据。现在市场上流行的物联网、车联网等大数据平台几乎无一例外是这类架构,这套方法证明完全工作。但这套通用方法效果如何?可以说有很多不足,主要表现在几个方面。
一.痛点
1.开发效率低
因为不是单一软件,需要集成至少4个以上模块,而且很多模块都不是标准的POSIX或SQL接口,都有自己的开发工具、开发语言、配置等等,需要一定的学习成本。而且由于数据从一个模块流动到另外一个模块,数据一致性容易受到破坏。同时,这些模块基本上都是开源软件,总会有各种BUG,即使有技术论坛、社区的支持,一旦被一技术问题卡住,总要耗费工程师不少时间。总的来讲,需要搭建一个还不错的团队才能将这些模块顺利的组装起来,因此需要耗费较大的人力资源。
2.运行效率低
现有的这些开源软件主要是用来处理互联网上非结构化的数据,但是物联网采集的数据都是时序的、结构化的