文章目录
- 在flink内存管理(一)中我们已经知道:在Flink中会将对象序列化成二进制格式数据,然后写入预先分配的内存块,而这个内存块就是MemorySegment。
- MemorySegments作为Flink内存管理的最小内存分配单元,能够申请堆内存和堆外内存空间,并对上层提供丰富且高效的内存数据读写方法。
一. MemorySegment架构概览
在flink1.16.1中MemorySegment已作为单独的一个类用于处理:堆内内存、堆外直接内存或堆外不安全内存。
单独的原因:关于效率的注意事项:为了获得最佳效率,MemorySegment不会通过继承来分离不同内存类型的实现,以避免在调用抽象方法时寻找具体实现的开销。
MemorySegment架构描述
- 为了尽可能避免直接实例化MemorySegment对象,Flink通过MemorySegmentFactory工厂类创建了MemorySegment。这是因为使用工厂模式控制类的创建,能够帮助JIT执行虚化(de-virtualized)和内联(inlined)的性能优化。
- DataOutputView接口扩展了java.io.DataOutput接口,提供了对一个或多个MemorySegment执行写入操作的视图。使用DataOutputView提供的方法可以灵活高效地将数据按顺序写入连续的MemorySegment内存块中。
- DataInputView接口扩展了java.io.DataInput接口,提供了对一个或多个MemorySegment执行读取操作的视图。使用DataInputView提供的方法可以灵活高效地按顺序读取MemorySegment中的内存数据。
- MemoryManager主要用于管理排序、哈希和缓存等操作对应的内存空间,且这些操作主要集中在离线计算场景中。
- NetworkBufferPool通过MemorySegmentFactory申请用于存储NetworkBuffer的MemorySegment内存空间。
JIT编译
JIT(即时编译)是一种在程序运行时将代码编译成机器码的编译技术。JIT编译的优势在于它可以根据程序的实际运行情况进行优化,使得在特定平台上达到更好的性能。
MemorySegment是系统最底层的内存管理单元,可想而知,MemorySegment在整个系统中的使用频率是非常高的。在JIT编译过程中,最好的处理方式就是明确需要调用的方法,早期MemorySegment因为是独立的Final类,JIT编译时要调用的方法都是确定的。
之前的版本将HybridMemorySegment和HeapMemorySegment两个子类加载到JVM,此时JIT编译器只有在真正执行方法的时候才会确认是哪一个子类的方法,这样就无法提前判断使用哪一个实现的虚方法,也就无法直接调用,就会影响JVM的性能。
二. MemorySegment详解
1.基于MemorySegment管理堆内存
我们已经知道,MemorySegment只能通过MemorySegmentFactory创建,并且在MemorySegmentFactory中直接提供了基于堆内存创建MemorySegment的方法。
如下代码所示,在MemorySegmentFactory.wrap()方法中可以直接将byte[] buffer数组封装成MemorySegment,其中byte[]数组中的内存空间实际上就是从堆内存中申请的。
/**
*创建一个以给定堆内存区域为新的memory segments。
此方法应用于将短期字节数组转换为memory segments.
*/
public static MemorySegment wrap(byte[] buffer) {
return new MemorySegment(buffer, null);
}
除了将已有的byte[]数组空间转换成MemorySegment之外,在MemorySegmentFactory中同时提供了通过分配堆内存空间创建MemorySegment的方法。如代码所示,在MemorySegmentFactory.allocateUnpooledSegment()方法中通过指定参数size申请固定数量的byte[]数组,这里new byte[size]的操作实际上就是从堆内存申请内存空间。
//分配一些非池化内存并创建一个代表该内存的新内存段。
//此方法类似于allocateUnpooledSegment(int, Object) ,但内存段的所有者为 null。
public static MemorySegment allocateUnpooledSegment(int size) {
return allocateUnpooledSegment(size, null);
}
在MemorySegment构造器中,提供了对byte[] buffer堆内存进行初始化的逻辑,在方法中首先将buffer赋值给heapMemory,然后将address设定为BYTE_ARRAY_BASE_OFFSET,表示byte[]数组内容的起始部分,然后根据数组对象和偏移量获取元素值(getObject)。
设定offHeapBuffer和cleaner为空。offHeapBuffer和cleaner主要在OffHeap中使用,owner参数表示当前的所有者,通常情况下设定为空。
//创建一个新的memory segment,表示字节数组的内存。
//由于字节数组由堆内存支持,因此该内存段将其数据保存在堆上。缓冲区的大小必须至少为 8 字节。
//memory segment引用给定的owner
MemorySegment(@Nonnull byte[] buffer, @Nullable Object owner) {
this.heapMemory = buffer;
this.offHeapBuffer = null;
this.size = buffer.length;
this.address = BYTE_ARRAY_BASE_OFFSET;
this.addressLimit = this.address + this.size;
this.owner = owner;
this.allowWrap = true;
this.cleaner = null;
this.isFreedAtomi