GPU segments(MSDN翻译)

介绍了WDDMv2中的内存管理模型,包括内存段、Aperture段和系统内存段的概念及其作用。讨论了GPU如何通过不同的段类型访问物理内存资源。

GPU segments

GPU 通过DDI访问物理内存的过程被抽象成了段模型Segmentation model(PS: Segment都是从GPU怎么访问物理内存的角度来进行讨论的)。KMD通过给出一系列的Segment给GPU,以便GPU能够通过Segment使用对应的物理内存资源。Segment受到VMM的管理。

WDDM v2一共有三种段类型:

  • 内存段 Memory Segment

一个内存段代表了指定给GPU的一段内存。内存段可以是独立显卡上的VRAM(Video RAM),也可以是固件或者是驱动在集成GPU上保留的内存。可以同时存在多个内存段。

新的WDDM v2中,内存段被当作一个物理内存页池(a pool of physical pages)来管理,每一页可以为4KB或者64KB。Surface的数据被Fill/Transfer/Discard/FillVirtuall/TransferVirtual这几个页操作拷贝进出内存段。

CPU可以有两种方法访问内存段中的内容。第一种方法,内存段可以在CPU的物理地址空间可见(PS:这里可以理解为CPU可以访问的物理地址空间中的一部分实际上是被映射到了内存段所代表那一段内存),这样VMM就能够简单的将CPU VA直接映射到Allocation所在的内存段中。而第二种方法,也是WDDM v2中新加入的,VMM支持CPU通过与一个内存段相关联的可编程CPU host aperture来访问被关联的那个内存段。

  • Aperture段 Aperture Segment

Aperture段是一个全局页表。通过Aperture段的映射,从GPU引擎的角度来看,一些不连续的系统内存页(System Memory Page)表现呈一段连续的内存。

在WDDM v2中,KMD至少需要上报一个Aperture段。

  • 系统内存段 System Memory Segment

系统内存段是一个隐含的段,表现为对系统内存的引用(i.e. a guest physical address PS: 不知道这个Guest物理地址到底指的是什么)。系统内存段不能直接被KMD访问到,但是能够被VMM隐式访问到,并且系统内存段的段ID永远是0,'SegmentId=0'。为了能够将Allocation放置在系统内存段中, KMD驱动需要使用Aperture段ID来访问系统内存段(PS:前面也说了,也就是通过指定SegmentId=0的 aperture段)。

物理内存引用 Physical memory reference

DDI中,物理内存引用都是采用段ID-段偏移对的形式(segment ID-Segment offset pair)。

用物理地址访问Allocation Accessing Allocations by physical address

对于不支持GPU VA的那些GPU引擎,就需要通过allocation的物理地址来访问allocation。这就意味着怎样从Segment分配资源给Allocation.物理引用意味着一个Allocation必须定位到一个连续的内存段中,或者在aperture段中一段连续的范围。

为了避免不必要并且开销大的连续的Allocation。KMD必须显式的确定Allocation.这些Allocation需要被渲染引擎物理的访问到,并且在这种Allocation创建的时候需要设置DXGK_ALLOCATIONFOFLAGS2::AccessedPhysically标志。

这种allocation在resident进系统内存的时候会被映射到aperture段中。并且在resident进内存段中时这些Allocation会是连续的。按照这种方式创建的Allocation会通过引擎上的Allocation List被引用。并且在物理地址模式下被访问操作。

没有被设置AccessPhysically标志的Allocation会被分配到内存段中的一些页中或者是系统内存的一些页中。两种方式都能通过GPU VA访问到。而这些Allocation不能够被GPU引擎的Allocation List所引用。以AllocationList方式引用这种Allocation的CB会在提交的时候被拒绝。

Primary Surfaces被理解为是Display controller物理访问资源,并且在实际显示的时候被连续的分配在了内存段中或被映射到aperture段中。当一个渲染引擎要物理访问Allocation的时候KMD只应该设置AccessedPhysically标记。隐式物理访问Primary surface和显式设置标志方式的不同之处在于当Allocation被映射到aperture的时候。当AccessedPhysically标志被设置之后Allocation都将被映射到aperture而不论何时resident。而没有设置AccessedPhysical标记的Primary surface只有当被实际显示的时候才会被映射到aperture中。这个特性减轻了aperture段的压力,通常情况下只有很少一些Primary surface会被显示,同时会有很大数量的surface存在并且被渲染(i.e. 在dFlip/iFlip场景中,所有FlipEx交换链都被为一个primary surface和其他的潜在的可显示的surface)。

 AccessedPhysically==0AccessedPhysically==1Primary && AccessedPhysically==0

Memory

Segment

内存页集合

只有GPUVA能访问

连续的

GPU物理地址能访问

连续的

只有GPUVA能够被渲染引擎访问

Aperture

Segment

未映射

系统内存页或只能被GPU页表映射

只能被GPUVA访问

不能通过Allocation List引用

resident时映射

GPU物理内存能访问

显示时被映射

能被渲染引擎通过GPU VA访问

 

<think>我们正在讨论编程或数据结构中的“段”(segments)概念。根据用户的问题,我们需要解释“segments”在编程或数据结构中的含义和应用。在计算机科学中,“段”(segment)可以指不同的概念,具体取决于上下文。以下是几个常见的含义:1.**内存段(MemorySegments)**:在计算机体系结构中,内存被划分为不同的段,例如代码段(textsegment)、数据段(datasegment)、BSS段(bsssegment)、堆(heap)和栈(stack)。这种分段是为了更有效地管理内存和提供内存保护。-**代码段**:存放可执行指令。-**数据段**:存放已初始化的全局变量和静态变量。-**BSS段**:存放未初始化的全局变量和静态变量。-**堆段**:动态分配的内存区域。-**栈段**:用于函数调用和局部变量。引用[2]中提到:“主机可访问区域,存放应用程序数据结构和程序数据。”这里的数据结构可能存放在数据段或堆段中。2.**分段存储管理(SegmentationinMemoryManagement)**:在操作系统中,分段是一种内存管理技术,其中每个段是一个逻辑单元(如程序的一个函数、一个数组等),可以独立地分配到内存的不同区域。每个段有自己的基址和长度,通过段表进行映射。3.**数据结构中的段(SegmentsinDataStructures)**:在某些数据结构中,段被用来表示数据的一个连续部分。例如:-**线段树(SegmentTree)**:一种二叉树数据结构,用于高效地处理区间查询(如区间最小值、区间和等)。每个节点代表一个区间(段)。-**分段数组(SegmentedArrays)**:将大数组分成多个小段(块)以优化性能(例如在缓存中使用)。4.**网络通信中的段(SegmentsinNetworking)**:在TCP/IP协议中,传输层的TCP协议将数据分割成多个段(segments)进行传输。5.**文件系统中的段(SegmentsinFileSystems)**:一些文件系统(如日志结构文件系统)将数据写入到固定大小的段中。由于用户的问题是关于编程或数据结构的,我们将重点放在内存段和线段树这两种常见的意义上。###内存段在程序执行时,内存被划分为多个段,每个段有特定的用途。例如,在C语言程序中:-代码段(.text):存储机器指令。-数据段(.data):存储已初始化的全局变量和静态变量。-BSS段(.bss):存储未初始化的全局变量和静态变量(程序加载时初始化为0)。-堆(heap):动态分配的内存(如`malloc`分配的内存)。-栈(stack):用于函数调用,存储局部变量、函数参数等。这种分段使得程序的内存管理更加有序和安全。###线段树(SegmentTree)线段树是一种非常重要的数据结构,用于解决区间查询问题。它可以在$O(\logn)$时间内完成区间查询(如区间最小值、区间和等)和单点更新,如果支持区间更新则需要惰性传播(lazypropagation)。线段树的基本思想是将一个区间划分成一些子区间(段),每个节点代表一个区间。线段树是一棵二叉树,根节点代表整个区间,每个叶子节点代表一个元素,内部节点代表区间的合并。例如,对于数组$A=[1,3,5,7,9,11]$,构建的线段树(求和)如下:```[0:5]=>36/\[0:2]=>9[3:5]=>27/\/\[0:1]=>4[2:2]=>5[3:4]=>16[5:5]=>11/\/\[0:0]=1[1:1]=3[3:3]=7[4:4]=9```每个节点存储对应区间的和。查询区间[1:4]的和,即3+5+7+9=24,可以通过合并节点[1:1](3)、[2:2](5)和[3:4](16)得到。线段树的构建、查询和更新操作都可以用递归实现。####线段树的代码示例(求和)以下是一个线段树的简单实现(支持区间求和查询和单点更新):```pythonclassSegmentTree:def__init__(self,arr):self.n=len(arr)self.size=4*self.n#线段树数组的大小通常为原数组的4倍self.tree=[0]*self.sizeself.arr=arrself._build(0,0,self.n-1)def_build(self,idx,l,r):ifl==r:self.tree[idx]=self.arr[l]returnmid=(l+r)//2self._build(2*idx+1,l,mid)self._build(2*idx+2,mid+1,r)self.tree[idx]=self.tree[2*idx+1]+self.tree[2*idx+2]defquery(self,ql,qr,idx=0,l=0,r=None):ifrisNone:r=self.n-1#查询区间[ql,qr]与当前节点区间[l,r]无重叠ifqr<lorr<ql:return0#当前节点区间完全包含在查询区间内ifql<=landr<=qr:returnself.tree[idx]mid=(l+r)//2left_sum=self.query(ql,qr,2*idx+1,l,mid)right_sum=self.query(ql,qr,2*idx+2,mid+1,r)returnleft_sum+right_sumdefupdate(self,pos,val,idx=0,l=0,r=None):ifrisNone:r=self.n-1ifl==r:self.arr[pos]=valself.tree[idx]=valreturnmid=(l+r)//2ifpos<=mid:self.update(pos,val,2*idx+1,l,mid)else:self.update(pos,val,2*idx+2,mid+1,r)self.tree[idx]=self.tree[2*idx+1]+self.tree[2*idx+2]#示例使用arr=[1,3,5,7,9,11]st=SegmentTree(arr)print(st.query(1,4))#输出24,因为3+5+7+9=24st.update(2,10)#将位置2的元素从5更新为10print(st.query(1,4))#输出29,因为3+10+7+9=29```###总结在编程和数据结构中,“段”(segments)的概念可以出现在多个层面:-内存管理中的内存段,用于组织程序的内存布局。-数据结构中的线段树,用于高效区间查询。-其他领域如网络和文件系统中的段。用户可以根据具体上下文选择关注的方向。例如,如果用户关注内存组织,则内存段是重点;如果关注区间查询问题,则线段树是重点。§§相关问题§§1.内存分段和分页有什么区别?2.线段树和树状数组(FenwickTree)有什么异同?3.线段树如何支持区间更新(使用惰性传播)?4.在哪些实际应用场景中会使用到线段树?</think>在编程和数据结构中,“段”(segments)通常指内存分段或特定数据结构中的连续区间概念。以下是主要应用场景和技术解析: ### 一、内存分段(Memory Segmentation) 操作系统和硬件层面将内存划分为逻辑段,用于隔离程序的不同部分: 1. **代码段(Text Segment)** 存储可执行指令(只读),如函数代码。 *示例:* 程序中的`main()`函数指令 2. **数据段(Data Segment)** - 已初始化全局变量(`.data`) - 未初始化全局变量(`.bss`) *引用示例:* “主机可访问区域,存放应用程序数据结构和程序数据”[^2] 3. **堆段(Heap Segment)** 动态分配的内存(如`malloc()`/`new`创建的对象) 4. **栈段(Stack Segment)** 存储函数调用栈、局部变量(自动管理) ```c int global_var; // 存储在.bss段 int init_var = 10; // 存储在.data段 int main() { // 代码段 int local_var; // 栈段 int* ptr = malloc(sizeof(int)); // 堆段 } ``` ### 二、数据结构中的段 1. **线段树(Segment Tree)** 用于高效解决区间查询问题(如区间和/最大值)的二叉树结构: - 每个节点代表一个区间(段) - 支持$O(\log n)$复杂度的区间查询和更新 *示例:* 查询数组区间$[l, r]$的元素和 ```python class SegmentTree: def __init__(self, arr): self.n = len(arr) self.size = 4 * self.n self.tree = [0] * self.size self._build(arr, 0, 0, self.n-1) def _build(self, arr, idx, l, r): if l == r: self.tree[idx] = arr[l] else: mid = (l + r) // 2 self._build(arr, 2*idx+1, l, mid) self._build(arr, 2*idx+2, mid+1, r) self.tree[idx] = self.tree[2*idx+1] + self.tree[2*idx+2] ``` 2. **内存池(Memory Pools)** 将内存预分为固定大小的段(slabs),提升分配效率: - 避免频繁调用`malloc` - 减少内存碎片(如Linux SLAB分配器) ### 三、其他应用场景 1. **网络传输** TCP协议将数据分割成段(segments)传输 2. **文件系统** 日志结构文件系统(如LFS)将写入操作组织成段 3. **GPU编程** 显存分段管理纹理/缓冲区(如OpenGL的VBO) ### 关键特性对比 | 段类型 | 主要用途 | 管理方式 | |--------------|-------------------------|---------------| | 内存分段 | 进程内存隔离 | 硬件MMU | | 线段树 | 区间查询优化 | 树结构维护 | | 内存池分段 | 高效内存分配 | 预分配块链表 | | 网络分段 | 可靠数据传输 | TCP协议栈 |
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值