内存池(MemPool)技术详解

本文详细介绍经典内存池技术原理,包括内存池的结构、内存分配与释放过程,以及性能分析。同时对比boost::pool组件的不同之处,并探讨其在sgi-stl中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

内存池(MemPool)技术详解 收藏

本文已经迁移到: http://cpp.winxgui.com/cn:dive-into-memory-pool

概述

内存池(MemPool)技术备受推崇。我用google搜索了下,没有找到比较详细的原理性的文章,故此补充一个。另外,补充了boost::pool组件与经典MemPool的差异。同时也描述了MemPool在sgi-stl/stlport中的运用。

经典的内存池技术

 
 
经典的内存池(MemPool)技术,是一种用于分配大量大小相同的小对象的技术。通过该技术可以极大加快内存分配/释放过程。下面我们详细解释其中的奥妙。
 
经典的内存池只涉及两个常量:MemBlockSize、ItemSize(小对象的大小,但不能小于指针的大小,在32位平台也就是不能小于4字节),以及两个指针变量MemBlockHeader、FreeNodeHeader。开始,这两个指针均为空。
 
class  MemPool
{
private :
    const int m_nMemBlockSize;
    
const int m_nItemSize;

     struct  _FreeNode {
        _FreeNode
*  pPrev;
        BYTE data[m_nItemSize - sizeof(_FreeNode*)];
    };

    struct _MemBlock {
        _MemBlock
* pPrev;
        _FreeNode data[m_nMemBlockSize/m_nItemSize];
    };
 
 
    _MemBlock *  m_pMemBlockHeader;
    _FreeNode
*  m_pFreeNodeHeader;
 
public :
   MemPool(
int  nItemSize,  int  nMemBlockSize  =   2048 )
       : m_nItemSize(nItemSize), m_nMemBlockSize(nMemBlockSize),
         m_pMemBlockHeader(NULL), m_pFreeNodeHeader(NULL)
   {
   }
};
 
 
其中指针变量MemBlockHeader是把所有申请的内存块(MemBlock)串成一个链表,以便通过它可以释放所有申请的内存。FreeNodeHeader变量则是把所有自由内存结点(FreeNode)串成一个链。
 
这段话涉及两个关键概念: 内存块(MemBlock)自由内存结点(FreeNode)。内存块大小一般固定为MemBlockSize字节(除去用以建立链表的指针外)。内存块在申请之初就被划分为多个内存结点(Node),每个Node大小为ItemSize(小对象的大小),计MemBlockSize/ItemSize个。这MemBlockSize/ItemSize个内存结点刚开始全部是自由的,他们被串成链表。我们看看申请/释放内存过程,就很容易明白这样做的目的。
 

申请内存过程

代码如下:
 
void *  MemPool::malloc()     //  没有参数
{
    
if  (m_pFreeNodeHeader  ==  NULL)
    {
       
const   int  nCount  =  m_nMemBlockSize / m_nItemSize;
        _MemBlock
*  pNewBlock  =   new  _MemBlock ;
        pNewBlock->data[ 0 ].pPrev  =  NULL;
        
for  ( int  i  =   1 ; i  <  nCount;  ++ i)
            pNewBlock->data[i].pPrev 
=   & pNewBlock->data[i - 1 ];
        m_pFreeNodeHeader 
=   & pNewBlock->data[nCount - 1 ];
        pNewBlock
-> pPrev  =  m_pMemBlock;
        m_pMemBlock 
=  pNewBlock;
    }
    
void *  pFreeNode  =  m_pFreeNodeHeader;
    m_pFreeNodeHeader 
=  m_pFreeNodeHeader -> pPrev;
    
return  pFreeNode;
}
 
内存申请过程分为两种情况:
  • 在自由内存结点链表(FreeNodeList)非空。
    在此情况下,Alloc过程只是从链表中摘下一个结点的过程。
     
  • 否则,意味着需要一个新的内存块(MemBlock)。
    这个过程需要将新申请的MemBlock切割成多个Node,并把它们串起来。
    MemPool技术的开销主要在这。
     

释放内存过程

 代码如下:
void  MemPool::free( void *  p)
{
    _FreeNode
*  pNode  =  (_FreeNode * )p;
    pNode
-> pPrev  =  m_pFreeNodeHeader;
    m_pFreeNodeHeader 
=  pNode;
}
 
释放过程极其简单,只是把要释放的结点挂到自由内存链表(FreeNodeList)的开头即可。
 
 
 

性能分析

MemPool技术申请内存/释放内存均极其快(比 AutoFreeAlloc慢)。其内存分配过程多数情况下复杂度为O(1),主要开销在FreeNodeList为空需要生成新的MemBlock时。内存释放过程复杂度为O(1)。
 
 
 
 

boost::pool

boost::pool是内存池技术的变种。主要的变化如下:

  • MemBlock改为非固定长度(MemBlockSize),而是:第1次申请时m_nItemSize*32,第2次申请时m_nItemSize*64,第3次申请时m_nItemSize*128,以此类推。不采用固定的MemBlockSize,而采用这种做法预测模型(是的,这是一种用户内存需求的预测模型,其实std::vector的内存增长亦采用了该模型),是一个细节上的改良。
     
  • 增加了ordered_free(void* p) 函数。

    ordered_free区别于free的是,free把要释放的结点挂到自由内存链表(FreeNodeList)的开头,ordered_free则假设FreeNodeList是有序的,因此会遍历FreeNodeList把要释放的结点插入到合适的位置。

    我们已经看到,free的复杂度是O(1),非常快。但请注意ordered_free是比较费的操作,其复杂度是O(N)。这里N是FreeNodeList的大小。对于一个频繁释放/申请的系统,这个N很可能是个大数。这个boost描述得很清楚:http://www.boost.org/libs/pool/doc/interfaces/pool.html

注意:不要认为boost提供ordered_free是多此一举。后文我们会在讨论boost::object_pool时解释这一点。

 

基于内存池技术的通用内存分配组件 

 
sgi-stl把内存池(MemPool)技术进行发扬光大,用它来实现其最根本的allocator。
 
 
其大体的思想是,建立16个MemPool,<=8字节的内存申请由0号MemPool分配,<=16字节的内存申请由1号MemPool分配,<=24字节的内存有2号MemPool分配,以此类推。最后,>128字节的内存申请由普通的malloc分配。
 
 
 
 

注意


以上代码属于伪代码(struct _FreeNode、_MemBlock编译通不过),并且去除了出错处理。

发表于 @ 2006年11月22日 00:44:00 | 评论( 17 ) | 举报| 收藏

旧一篇:【基础】如何建立第一个winx程序 | 新一篇:垃圾收集机制(Garbage Collection)批判

 

xushiwei 发表于Wed Nov 22 2006 09:58:00 GMT+0800 (China Standard Time)   举报 回复
以上代码属于伪代码(struct _FreeNode编译通不过),并且去除了出错处理。另外,代码是写文章的时候敲的,重点在表意,不排除有细节问题(我将尽量避免)。
Crazyazreal 发表于Wed Nov 22 2006 12:33:00 GMT+0800 (China Standard Time)   举报 回复
想请教一吓,这个内存池里没有释放内存的代码,那么随着程序的运行,申请的内存会越来越多,是不是应该在系统空闲时,delete掉空闲链表里的内存?  
在网上搜了一吓,用多个内存池来解决,每个内存池对应不同的生存期。除了这个方法还有别的吗?
xushiwei 发表于Wed Nov 22 2006 12:44:00 GMT+0800 (China Standard Time)   举报 回复
是的,内存池(MemPool)除了clear操作(上面没有提供)外,没有真正delete内存的过程。sgi-stl更加夸张,连MemPool析构时都不delete,直接程序退出时由操作系统回收。
xushiwei 发表于Wed Nov 22 2006 12:49:00 GMT+0800 (China Standard Time)   举报 回复
我曾经写过一个可回收版本,但是实际上并不理想。细究起来,其实我们这种担心纯属多余。  

你想,如果程序某个时刻到达了一个内存使用高峰,那么意味着它接下来很有可能有另一个高峰,如果我们辛辛苦苦把内存回收了,马上有要重新申请,其实不值得。细究boost::pool的实现,它采用了非固定长度的MemBlock,来预测的用户内存需求,其实是同样的道理。
xushiwei 发表于Wed Nov 22 2006 14:20:00 GMT+0800 (China Standard Time)   举报 回复
不好意思,我的话误导你了:一般的MemPool析构会delete内存的。是sgi-stl的allocator没有这样做。
kkkk 发表于Wed Nov 22 2006 14:07:00 GMT+0800 (China Standard Time)   举报 回复
既然内存池析构时不回收内存,那是不是应该保存一个句柄之类的东西以备将来重新使用,而不是无止尽的向系统要内存吧??如果是这样请问是如何实现的?
kkkk  发表于Wed Nov 22 2006 18:16:00 GMT+0800 (China Standard Time)   举报 回复
我胡思乱想的,这样一个专分配小内存的的内存池,由程序员决定是否分配到这个内存池,使用注册或代理,分配发生异常时进行内存整理,同时作一些改变东西(这个不知道怎么说,反正就是使指针不失效吧),可以吗,不行的话难点在哪?
肉骨头 发表于Sun Nov 26 2006 23:42:00 GMT+0800 (China Standard Time)   举报 回复
与其将内存池当一项技术,不如作为一种内存使用策略。  
对不同的需求,使用不同的内存池,采用不同的策略。软件初期使用的策略和后期可能截然不同。离开需求设计泛用型内存池可不是个好主意。
xushiwei 发表于Sun Nov 26 2006 23:55:00 GMT+0800 (China Standard Time)   举报 回复
to 肉骨头: 感觉到了你是有感而发,但是恕我愚钝,不太明白你的意思。
肉骨头 发表于Mon Nov 27 2006 18:53:00 GMT+0800 (China Standard Time)   举报 回复
to xushiwei:  
Sorry,可能有些不太切合本文的题目。看到关于“性能”的讨论时,突然冒出了这些想法。  
内存分配后如何使用,什么时候释放,什么时候归还,处于一种基于需求的考虑,所以我比较倾向于将内存池作为策略来看待。  
“泛用型内存池”指的是满足大多数需求的内存池实现。这种内存池考虑了大多数应用的共通特性而舍弃特殊性。C++的标准new就是一种泛用型的,只不过它是向操作系统申请。  
《Modern C++ Design》有一章专门用来描述了一种小型对象分配器,其实就是一种内存分配策略。标准new针对大块内存的分配做了专门的优化,而对小到几十个字节的对象使用new的话效率太低。为了解决为大量小型(几十个字节)对象分配内存造成的性能问题,书中采用针对小型对象设计的内存池满足了“大量小型对象分配“对效率的需求。  
所以,才有了前边的那些发言。SORRY,我的语文水平不高,见谅。:P
20040216 发表于Wed Dec 06 2006 09:41:46 GMT+0800 (China Standard Time)   举报 回复
我以为作者有什么创新,结果什么都没有,还不如《Modern C++ Design》中设计的,在《Modern C++ Design》的设计上修改一下它的缓存设计和释放chunk的查找机制性能还是不错的 sgi的stl内存管理根本不释放内存,对于某些程序是不可取的 肉骨头说的很对,不同需求用不同的
xushiweizh 博客专家 发表于Wed Dec 06 2006 10:05:46 GMT+0800 (China Standard Time)   举报 回复
呵呵,我题目介绍的就是经典的内存池,当然不会有什么自己的东西。bosst、sgi-stl是因为与内存池有关,所以一并介绍。我本来不打算写的,通常转一篇,可惜没找到合适的。
NeutralEvil 发表于Fri Jan 19 2007 22:50:27 GMT+0800 (China Standard Time)   举报 回复
看到boost::pool的接口,一直没想通ordered_free到底有什么用,特别是object_pool的free还非得强制调ordered_free。许老大怎么不继续写了?
NeutralEvil 发表于Fri Jan 19 2007 22:50:27 GMT+0800 (China Standard Time)   举报 回复
看到boost::pool的接口,一直没想通ordered_free到底有什么用,特别是object_pool的free还非得强制调ordered_free。许老大怎么不继续写了?
xushiweizh 博客专家 发表于Sat Jan 20 2007 14:40:54 GMT+0800 (China Standard Time)   举报 回复
会写的。C++内存管理变革(3)本来已经打算开始介绍object_pool,但是考虑到很多人对AutoFreeAlloc仍有疑虑,故此额外加了一篇。到年关了,大家都很忙,blog更新得不太勤快了。呵呵。
dmgactive 发表于Wed Dec 19 2007 10:07:34 GMT+0800 (China Standard Time)   举报 回复
你好:nMemBlockSize = 2048这一项2048B?
做一个简单数据库,以块为单位,申请一个8kb的怎么来做

转载于:https://www.cnblogs.com/blockcipher/archive/2010/09/04/2913017.html

<think>好的,我现在需要详细解答用户关于DPDK技术的疑问。用户希望了解DPDK的详细知识点和核心内容,所以我需要整理相关知识,并确保回答结构清晰,符合用户的要求。 首先,我应该回顾DPDK的基本概念。DPDK是数据平面开发工具包,主要用于高性能网络数据包处理。根据引用内容,DPDK绕过内核,减少数据拷贝,使用轮询模式,支持多线程和内存管理优化。这些是基础,需要先解释清楚。 接下来,核心架构部分。引用1提到DPDK的总体框架,包括用户空间驱动、内存管理和轮询模式驱动(PMD)。需要分点说明这些组件的作用,比如PMD如何直接操作网卡,避免中断开销。同时,内存管理使用大页内存和内存池技术,这也是关键点。 然后,关键技术点。用户可能关心DPDK如何实现高性能,这里需要结合引用中的信息。例如,用户态驱动减少内核切换,零拷贝技术NUMA亲和性优化,以及多队列和负载均衡机制。这些都是DPDK的核心技术,需要逐一解释。 应用场景部分,可以引用用户提到的云计算、NFV、5G等场景,说明DPDK在这些领域的作用。同时,引用3提到DPDK用于网络数据平面加速,这应该应用场景结合说明。 开发难点和优化挑战也是用户可能关心的内容。根据引用2,DPDK的复杂性、资源占用和硬件依赖是主要缺点。需要指出开发DPDK应用需要深入理解其架构,调试困难,以及硬件兼容性问题,这部分可以作为挑战部分。 最后,生成相关问题。需要确保问题覆盖DPDK的核心架构、优化方法、内核旁路的关系、适用场景、性能调优以及硬件兼容性,这样用户可以有进一步了解的途径。 在整理过程中,要注意使用正确的中文表达,行内公式用$...$,独立公式用$$...$$,但当前内容中公式较少,可能主要涉及技术术语。同时,检查是否有引用标记正确添加,比如DPDK的高效处理框架在引用1中,复杂性和资源占用在引用2中,用户空间处理在引用3中。 需要确保回答结构清晰,分点明确,帮助用户逐步理解DPDK的各个方面。同时,语言要简洁,避免冗长,重点突出关键技术点和应用场景。最后的问题部分要引导用户深入思考DPDK的不同方面,促进进一步学习。</think>### DPDK技术详解及核心知识点 #### 一、DPDK基础概念 DPDK(Data Plane Development Kit)是英特尔开源的**用户态数据平面加速框架**,专为高性能网络包处理设计。其核心目标是**绕过操作系统内核**,通过用户态驱动和零拷贝技术实现低延迟、高吞吐量的网络数据处理[^3]。 #### 二、核心架构组成 1. **用户空间驱动(PMD)** - 轮询模式驱动(Poll Mode Driver)直接操作网卡硬件,消除中断处理开销[^3]。 - 支持多种网卡类型(如Intel 82599、X710等)。 2. **内存管理** - 使用**大页内存(HugePage)**减少TLB缺失,提升内存访问效率。 - 通过内存池mempool)预分配固定大小的数据包缓冲区[^1]。 3. **多核调度优化** - 线程绑定至指定CPU核心(CPU亲和性),避免上下文切换。 - NUMA架构感知的内存分配,减少跨节点访问延迟[^3]。 #### 三、关键技术实现 1. **内核旁路(Kernel Bypass)** - 数据包直接从网卡DMA到用户空间,避免内核协议栈处理[^3]。 - 典型场景:单核处理能力可达10Mpps(每秒百万包)。 2. **零拷贝技术** - 数据包在用户态驱动应用层之间无需复制,仅传递指针。 3. **报文处理流水线** ```plaintext 网卡DMA → 用户态缓冲区 → 分类/过滤 → 路由/转发 → 发送队列 → 网卡发送 ``` #### 四、典型应用场景 1. 云计算虚拟化网络(如OVS-DPDK加速虚拟交换机[^2])。 2. 网络功能虚拟化(NFV):防火墙、负载均衡、5G UPF。 3. 高频交易网络(超低延迟要求)。 #### 五、开发挑战优化 1. **性能调优难点** - 数据包处理逻辑必须极致精简,单次循环增加1条指令可能导致10%性能损失[^1]。 - 示例代码片段: ```c while (1) { rx_pkts = rte_eth_rx_burst(port, queue, mbufs, BURST_SIZE); for (i = 0; i < rx_pkts; i++) { process_packet(mbufs[i]); // 此处代码效率决定整体性能 } } ``` 2. **硬件依赖问题** - 需支持SR-IOV、网卡RSS(接收侧扩展)等特性[^2]。 #### 六、其他技术对比 | 特性 | DPDK | 传统内核网络栈 | |---------------|-------------------|--------------------| | 数据路径 | 用户态直接处理 | 内核协议栈 | | 延迟 | 微秒级 | 毫秒级 | | CPU利用率 | 轮询模式(100%) | 中断驱动(<50%) | | 适用场景 | 高频/高吞吐 | 通用网络 | ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值