Java使用xlsx-streamer和EasyExcel解决读取超大excel数据时OutOfMemoryError的问题

前言

最近有个项目在生产环境做数据导入时,发现开始执行导入任务会出现cpu狂飙的情况。几番定位查找发现是在读取excel的时候导致此问题的发生,因此在通常使用的为POI的普通读取,在遇到大数据量excel,50mb大小或数十万行的级别的数据容易导致读取时内存溢出或者cpu飙升。需要注意,本文讨论的是针对xlsx格式的excel文件。

关于Excel相关技术

在Java技术生态圈中,可以进行Excel处理的主流技术包括:Apache POI,JXL,Alibaba EasyExcel等。由于JXL只支持Excel2003以下版本,所以不太常见。

Apache POI:基于DOM方式进行解析,将文件直接加载内存,所以速度较快,适合Excel文件数量不大的应用场景
Alibaba EasyExcel:采用逐行读取的解析模式,将每一行的解析结果以观察者模式通知处理(AnalyEventListener),所以比较适合数据体量较大的Excel文件解析。

场景复现与问题定位

问题代码

这种方式POI会把文件的所有内容都加载到内存中,读取大的excel文件时很容易占用大量内存导致oom的发生

  /**
     * POI方式读取excel
     *
     * @param file
     */
    public static void readExcelByPoi(File file) {
        long start = System.currentTimeMillis();

        try (InputStream inp = new FileInputStream(file);
             Workbook wb = WorkbookFactory.create(inp)) {

            log.info("==读取excel完毕,耗时:{}毫秒,", System.currentTimeMillis() - start);
            Sheet sheet = wb.getSheetAt(0);
            //更新总数
            System.out.println("读取结束行数:" + sheet.getLastRowNum());

        } catch (Exception e) {
            e.printStackTrace();
        }
    }

当前引入的poi依赖

<!-- excel工具 -->
 <dependency>
     <groupId>org.apache.poi</groupId>
     <artifactId>poi-ooxml</artifactId>
     <version>${poi.version}</version>
 </dependency>
   

读取50MB40万行数据

首先在读取excel文件的断点执行之前的cpu和内存的占用分别为50%和42%,上传的excel大小为50MB
在这里插入图片描述

可以看到,读取时cpu飙升到100,而且读取40w行数据耗费了接近100秒

11:40:57.599 [main] INFO com.cxstar.common.utils.poi.ExcelUtil - ==读取excel完毕,耗时:96595毫秒,

在这里插入图片描述

读取84MB100万行数据

直接飙到100%,内存占用65%
在这里插入图片描述
而且还直接报错:java.lang.OutOfMemoryError: GC overhead limit exceeded

Exception in thread "main" java.lang.OutOfMemoryError: GC overhead limit exceeded
	at org.apache.xmlbeans.impl.store.Cur.createElementXobj(Cur.java:260)
	at org.apache.xmlbeans.impl.store.Cur$CurLoadContext.startElement(Cur.java:2997)
	at org.apache.xmlbeans.impl.store.Locale$SaxHandler.startElement(Locale.java:3164)
	at org.apache.xerces.parsers.AbstractSAXParser.startElement(AbstractSAXParser.java:498)
	at org.apache.xerces.impl.XMLNSDocumentScannerImpl.scanStartElement(XMLNSDocumentScannerImpl.java:283)
	at org.apache.xerces.impl.XMLDocumentFragmentScannerImpl$FragmentContentDispatcher.dispatch(XMLDocumentFragmentScannerImpl.java:1653)
	at org.apache.xerces.impl.XMLDocumentFragmentScannerImpl.scanDocument(XMLDocumentFragmentScannerImpl.java:324)
	at org.apache.xerces.parsers.XML11Configuration.parse(XML11Configuration.java:890)
	at org.apache.xerces.parsers.XML11Configuration.parse(XML11Configuration.java:813)
	at org.apache.xerces.parsers.XMLParser.parse(XMLParser.java:108)
	at org.apache.xerces.parsers.AbstractSAXParser.parse(AbstractSAXParser.java:1198)
	at org.apache.xerces.jaxp.SAXParserImpl$JAXPSAXParser.parse(SAXParserImpl.java:564)
	at org.apache.xmlbeans.impl.store.Locale$SaxLoader.load(Locale.java:3422)
	at org.apache.xmlbeans.impl.store.Locale.parseToXmlObject(Locale.java:1272)
	at org.apache.xmlbeans.impl.store.Locale.parseToXmlObject(Locale.java:1259)
	at org.apache.xmlbeans.impl.schema.SchemaTypeLoaderBase.parse(SchemaTypeLoaderBase.java:345)
	at org.openxmlformats.schemas.spreadsheetml.x2006.main.WorksheetDocument$Factory.parse(Unknown Source)
	at org.apache.poi.xssf.usermodel.XSSFSheet.read(XSSFSheet.java:226)
	at org.apache.poi.xssf.usermodel.XSSFSheet.onDocumentRead(XSSFSheet.java:218)
	at org.apache.poi.xssf.usermodel.XSSFWorkbook.parseSheet(XSSFWorkbook.java:454)
	at org.apache.poi.xssf.usermodel.XSSFWorkbook.onDocumentRead(XSSFWorkbook.java:419)
	at org.apache.poi.ooxml.POIXMLDocument.load(POIXMLDocument.java:184)
	at org.apache.poi.xssf.usermodel.XSSFWorkbook.<init>(XSSFWorkbook.java:288)
	at org.apache.poi.xssf.usermodel.XSSFWorkbookFactory.createWorkbook(XSSFWorkbookFactory.java:97)
	at org.apache.poi.xssf.usermodel.XSSFWorkbookFactory.createWorkbook(XSSFWorkbookFactory.java:147)
	at org.apache.poi.xssf.usermodel.XSSFWorkbookFactory$$Lambda$2/1073533248.apply(Unknown Source)
	at org.apache.poi.ss.usermodel.WorkbookFactory.create(WorkbookFactory.java:256)
	at org.apache.poi.ss.usermodel.WorkbookFactory.create(WorkbookFactory.java:221)
	at com.cxstar.common.utils.poi.ExcelUtil.readExcelByPoi(ExcelUtil.java:1209)
	at com.cxstar.common.utils.poi.ExcelUtil.main(ExcelUtil.java:1224)

解决方案一:xlsx-streamer

采用分段缓存的方式加载数据到内存中,此种方式在创建Workbook对象时借助xlsx-streamer(StreamingReader) 来创建一个缓冲区域批量地读取文件 ,因此不会将整个文件实例化到对象当中

引入依赖:

<!-- excel工具 -->
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-ooxml</artifactId>
    <version>${poi.version}</version>
</dependency>
<!-- 读取大量excel数据时使用 -->
<dependency>
    <groupId>com.monitorjbl</groupId>
    <artifactId>xlsx-streamer</artifactId>
    <version>2.1.0</version>
</dependency>

示例代码:

    /**
     * 大批量数据读取 十万级以上
     * 思路:采用分段缓存加载数据,防止出现OOM的情况
     *
     * @param file
     * @throws Exception
     */
    public static void readLagerExcel(File file) throws Exception {
      InputStream inputStream = new FileInputStream(file);
        long start = System.currentTimeMillis();
        try (Workbook workbook = StreamingReader.builder()
                .rowCacheSize(10 * 10)  //缓存到内存中的行数,默认是10
                .bufferSize(1024 * 4)  //读取资源时,缓存到内存的字节大小,默认是1024
                .open(inputStream)) { //打开资源,可以是InputStream或者是File,注意:只能打开.xlsx格式的文件

            Sheet sheet = workbook.getSheetAt(0);
            log.info("==读取excel完毕,耗时:{}毫秒,", System.currentTimeMillis() - start);
            //遍历所有的行
            for (Row row : sheet) {
                System.out.println("开始遍历第" + row.getRowNum() + "行数据:");
                //遍历所有的列
                for (Cell cell : row) {
                    System.out.print(cell.getStringCellValue() + " ");
                }
                System.out.println(" ");
            }
            //总数
            System.out.println("读取结束行数:" + sheet.getLastRowNum());
        }
    }

加载数据效果

40万级别数据近花费5.4秒

13:58:09.160 [main] INFO com.cxstar.common.utils.poi.ExcelUtil - ==读取excel完毕,耗时:5477毫秒,
行数:412845

在这里插入图片描述
百万级别花费6.75秒

14:37:24.235 [main] INFO com.cxstar.common.utils.poi.ExcelUtil - ==读取excel完毕,耗时:6751毫秒,
读取结束行数:1000000

在这里插入图片描述

耗费资源对比

数据量常规poi分段缓存
40万96s,cpu100%,内存64%5.4s,cpu57%,内存34%
100万OOM6.75s,cpu58%,内存43%

解决方案二:EasyExcel

使用EasyExcel解决大文件Excel内存溢出的问题,基于POI进行封装优化,可以在不考虑性能、内存的等因素的情况下,快速完成Excel的读、写等功能。

官网: https://easyexcel.opensource.alibaba.com/
github:https://github.com/alibaba/easyexcel

引入依赖

<!-- EasyExcel 大数据量excel读写 -->
<dependency>
    <groupId>com.alibaba</groupId>
    <artifactId>easyexcel</artifactId>
    <version>3.1.0</version>
</dependency>

示例代码

仅做简单读取示例,详细文档api可参考:读Excel|EasyExcel

 /**
  * EasyExcel方式读取excel
   * <p>
   * 读取并封装为对象
   *
   * @param file
   */
  public static void readExcelByEasyExcel(File file) {
      long start = System.currentTimeMillis();
      List<ExcelData> excelDataList = EasyExcel.read(file).head(ExcelData.class).sheet(0).doReadSync();
      excelDataList.stream().forEach(x -> System.out.println(x.toString()));
      log.info("==读取excel完毕,耗时:{}毫秒,", System.currentTimeMillis() - start);
  }

  /**
    * EasyExcel方式读取excel
    * <p>
    * 不指定head类
    *
    * @param file
    */
   public static void readExcelByEasyExcel1(File file) {
       long start = System.currentTimeMillis();
       List<Map<Integer, String>> listMap = EasyExcel.read(file).sheet(0).doReadSync();
       listMap.stream().forEach(x -> System.out.println(JSON.toJSONString(x)));
       log.info("==读取excel完毕,耗时:{}毫秒,", System.currentTimeMillis() - start);
   }
### 解决Java读取数据数据出现OutOfMemoryError问题Java程序在读取数据库中的大量数据,可能会因为内存不足而触发`java.lang.OutOfMemoryError: Java heap space`错误。以下是几种有效的解决方案: #### 1. 调整JVM堆内存大小 可以通过调整JVM的堆内存参数来增加可用内存空间。具体操作是在启动Java应用加入以下参数: ```bash -Xms<初始堆大小> -Xmx<最大堆大小> ``` 例如,可以将最小最大堆内存分别设置为2GB4GB: ```bash -Xms2g -Xmx4g ``` 此方法适用于因默认堆内存过小而导致的数据处理失败情况[^2]。 #### 2. 使用分页查询优化数据库访问 对于大数据量的情况,一次性加载所有记录到内存中可能导致内存耗尽。建议采用分页方式逐步获取数据。通过SQL语句实现分页功能,减少每次加载的数据量。例如,在MySQL中可使用LIMITOFFSET关键字完成分页: ```sql SELECT * FROM table_name LIMIT page_size OFFSET offset_value; ``` 配合循环结构逐批提取并处理数据,从而降低单次运行所需的内存占用[^3]。 #### 3. 利用流式API高效管理资源 除了传统的集合类对象存储外,还可以考虑利用Stream API或其他第三方库(如Apache Commons CSV、OpenCSV等),这些工具能够更有效地管理释放不再使用的对象实例,进而缓解GC压力。另外,针对特定文件格式的操作也有专门设计用于节省内存消耗的产品可供选用,比如解析大规模Excel文档推荐尝试xlsx-streamer或者EasyExcel框架[^4]。 #### 4. 验证更改后的配置有效性 修改完成后需重新启动服务器以使新设定生效,并可通过命令行工具验证实际分配给进程的heap size是否达到预期目标。例如运用jmap指令检查当前正在运行的应用程序所拥有的heap memory状况: ```bash jmap -heap <pid> ``` 其中<pid>代表对应服务进程ID号[^5]。 以上措施综合实施后应能显著改善由海量数据引发的out-of-memory情形。 ---
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

徐州蔡徐坤

又要到饭了兄弟们

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值