大量csv数据的查询和计算的技术实现路径分析(2)-HDFS存储查询探讨2
上一篇讲了java split的使用弊端,虽是字符串处理中一个很小的操作,不过却避不开。接下来,主要探讨HDFS存储查询方面的问题和解决思路。
随着每天的业务运作,每天会生成很多csv文件,目前csv文件存储在hdfs文件系统里面。在使用csv文件数据时,遇到一个问题:
如何高效查询HDFS中的csv数据?
基于HDFS文件系统的特性,笔者经由以前的探讨和一些资料,作了一些思考,如图:
...
原创
2018-06-21 21:30:10 ·
648 阅读 ·
0 评论