Spark 导出 TXT 、CSV 文件小试牛刀

最新推荐文章于 2023-11-08 16:04:32 发布

原创

最新推荐文章于 2023-11-08 16:04:32 发布 · 8.1k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#Spark

本文介绍了如何使用Spark对数据进行处理并导出为TXT和CSV格式文件，详细阐述了相关操作步骤与关键API，适用于大数据处理场景。

/**
 注意1： Spark saveAsTextFile 保存出来的是一个文件夹，所以才有以下获取文件夹里面的文件并整合成一个文件的操作；
 注意2： 在没有main函数的情况下  实现类一定要 implements Serializable,不然会报错不能序列化
*/


import org.apache.spark.api.java.JavaRDD;
import pass.common.response.Response;
import pass.computation.action.response.ActionResponse;

import java.io.*;
import java.util.ArrayList;
import java.util.List;


public class SaveFileAction {

    /**
     * @param file
     * @return 成功返回：以part开头的文件列表
     */
    public static List<String> getFileList(File file) {

        List<String> result = new ArrayList<String>();

        if (!file.isDirectory()) {
            System.out.println(file.getAbsolutePath());
            result.add(file.getAbsolutePath());
        } else {
            File[] directoryList = file.listFiles(new FileFilter() {
                public boolean accept(File file) {
                    if (file.isFile() && file.getName().indexOf("part") == 0) {
                        return true;
                    } else {
                        return false;
                    }
                }
            });
            for (int i = 0; i < directoryList.length; i++) {
                result.add(directoryList[i].getPath());
            }
        }

        return result;
    }

    /**
     * 删除单个文件
     *
     * @param sPath 被删除文件path
     * @return 删除成功返回true，否则返回false
     */
    public boolean del