JVM优化之调整大内存分页(LargePage)

本文详细介绍了内存分页机制的概念及其实现原理,包括MMU如何实现虚拟地址到物理地址的映射,以及页表和TLB的作用。此外,还探讨了如何在Linux环境下调整操作系统和JVM的内存分页大小。
转载自:http://jm.taobao.org/2009/11/21/3157/

什么是内存分页?

       CPU是通过寻址来访问内存的。32位CPU的寻址宽度是 0~0xFFFFFFFF,即4G,也就是说可支持的物理内存最大是4G。但在实践过程中,程序需要使用4G内存,而可用物理内存小于4G,导致程序不得不降低内存占用。为了解决此类问题,现代CPU引入了MMU(Memory Management Unit,内存管理单元)。
       MMU 的核心思想是利用虚拟地址替代物理地址,即CPU寻址时使用虚址,由MMU负责将虚址映射为物理地址。MMU的引入,解决了对物理内存的限制,对程序来说,就像自己在使用4G内存一样。
       内存分页(Paging)是在使用MMU的基础上,提出的一种内存管理机制。它将虚拟地址和物理地址按固定大小(4K)分割成页(page)和页帧(page frame),并保证页与页帧的大小相同。这种机制,从数据结构上,保证了访问内存的高效,并使OS能支持非连续性的内存分配。在程序内存不够用时,还可以将不常用的物理内存页转移到其他存储设备上,比如磁盘,这就是虚拟内存。
       在上文中提到,虚拟地址与物理地址需要通过映射,才能使CPU正常工作。而映射就需要存储映射表。在现代CPU架构中,映射关系通常被存储在物理内存上一个被称之为页表(page table)的地方。 如下图:
             
       页表是被存储在内存中的,CPU通过总线访问内存,肯定慢于直接访问寄存器的。为了进一步优化性能,现代CPU架构引入了TLB(Translation lookaside buffer,页表寄存器缓冲),用来缓存一部分经常访问的页表内容。如下图:
             

为什么要支持大内存分页?

       TLB是有限的,这点毫无疑问。当超出TLB的存储极限时,就会发生 TLB miss,之后,OS就会命令CPU去访问内存上的页表。如果频繁的出现TLB miss,程序的性能会下降地很快。
       为了让TLB可以存储更多的页地址映射关系,我们的做法是调大内存分页大小。如果一个页4M,对比一个页4K,前者可以让TLB多存储1000个页地址映射关系,性能的提升是比较可观的。

调整OS和JVM内存分页

       在Linux确认是否支持,请在终端敲如下命令:
$cat /proc/meminfo | grep Huge
HugePages_Total: 0
HugePages_Free: 0
Hugepagesize: 2048 kB
       如果有HugePage字样的输出内容,说明OS是支持大内存分页的。Hugepagesize就是默认的大内存页size。接下来,为了让JVM可以调整大内存页size,需要设置下OS 共享内存段最大值和大内存页数量。
       共享内存段最大值,建议这个值大于Java Heap size,这个例子里设置了4G内存。
$ echo 4294967295 > /proc/sys/kernel/shmmax
       大内存页数量,这个值一般是 Java进程占用最大内存/单个页的大小,比如java设置1.5G,单个页10M,那么数量为1536/10 = 154。
$ echo 154 > /proc/sys/vm/nr_hugepages
       单个页大小调整,JVM启用时加参数 -XX:LargePageSizeInBytes=10m。如果JDK是在1.5 update5以前的,还需要手动加 -XX:+UseLargePages,作用是启用大内存页支持。
在导出大量数据时,避免内存溢出问题的关键在于优化数据处理和内存管理。以下是几种有效的方法: ### 使用 SXSSFSheet 进行流式处理 Apache POI 提供了 `SXSSFSheet` 类,专门用于处理大数据量的 Excel 导出。`SXSSFSheet` 是基于磁盘的实现,它通过维护一个有限大小的工作表缓存(默认100行),当缓存满时,会将最旧的行数据写入硬盘并从内存中移除,从而减少内存消耗。这种方式非常适合处理百万级数据的导出任务。 ```java import org.apache.poi.xssf.streaming.SXSSFWorkbook; import org.apache.poi.ss.usermodel.*; public class LargeDataExport { public static void main(String[] args) { // 创建一个 SXSSFWorkbook 实例,设置缓存行数为 100 Workbook workbook = new SXSSFWorkbook(100); // 缓存100行 Sheet sheet = workbook.createSheet("Data"); // 模拟导出大量数据 for (int i = 0; i < 100000; i++) { Row row = sheet.createRow(i); for (int j = 0; j < 10; j++) { Cell cell = row.createCell(j); cell.setCellValue("Row " + i + ", Col " + j); } } // 写入文件 try (FileOutputStream fos = new FileOutputStream("large_data.xlsx")) { workbook.write(fos); } catch (Exception e) { e.printStackTrace(); } finally { try { workbook.close(); } catch (Exception e) { e.printStackTrace(); } } } } ``` ### 分页查询与分批处理 为了避免一次性加载所有数据到内存中,可以采用分页查询的方式从数据库中获取数据。每次只加载一部分数据进行处理,处理完后再加载下一批数据。这样可以有效减少内存占用。 ```java int pageSize = 1000; // 每页数据量 int currentPage = 0; while (true) { List<Data> dataList = fetchDataFromDatabase(currentPage, pageSize); // 从数据库中获取分页数据 if (dataList.isEmpty()) { break; // 数据已全部加载完毕 } // 处理当前页的数据 processPageData(dataList); currentPage++; } ``` ### 使用流式处理框架 可以考虑使用流式处理框架(如 Apache Spark 或 Apache Flink)来处理大数据量的导出任务。这些框架能够高效地处理大规模数据,并且内置了内存管理和性能优化机制。 ### 调整 JVM 内存设置 适当增加 JVM 的堆内存大小可以缓解内存溢出问题,但这并不是根本解决方案。可以通过调整 JVM 的启动参数来增加最大堆内存: ```sh java -Xmx4g -Xms4g -jar your-application.jar ``` 这里的 `-Xmx4g` 表示最大堆内存为 4GB,`-Xms4g` 表示初始堆内存也为 4GB。 ### 监控与优化垃圾回收 频繁的 Full GC 可能会导致性能问题,因此需要监控垃圾回收情况并进行优化。可以使用 JVM 自带的工具(如 `jstat`、`jvisualvm`)来监控 GC 情况,并根据监控结果调整内存设置或优化代码。 ### 总结 通过使用 `SXSSFSheet` 进行流式处理、分页查询与分批处理、流式处理框架、调整 JVM 内存设置以及监控与优化垃圾回收等方法,可以有效地避免在导出大量数据时出现内存溢出问题。这些方法不仅能够减少内存占用,还能提高系统的整体性能和稳定性。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值