1.问题
描述:如何将某个目录下所有文件合并成单个文件(前提是相同schema文件,不同的话合并也没多大意义,当然你想这么做也没啥问题。)
2.解决方案
1)举例
从将hdfs上多日的数据汇总成一个单文件
2)shell版本解决方案
-首先,创建一个全新文件夹,并进入
>mkdir workspace
>cd workspace
-将文件get到本地,比如get这一年的数据(或者将你要进行合并的文件和文件夹都拷贝到workspace)
hadoop fs -get /user/data/dt=2017* .
-然后,workspace目录执行以下语句
find . -type f -exec cat {} \; > targetName.csv