定长内存池之BOOST::pool

内存池技术
本文介绍内存池技术及其在提升系统性能方面的作用,详细分析了不同类型的内存池,包括不定长内存池和定长内存池的特点及应用场景,特别介绍了Boost库中的内存池实现。

内存池可有效降低动态申请内存的次数,减少与内核态的交互,提升系统性能,减少内存碎片,增加内存空间使用率,避免内存泄漏的可能性,这么多的优点,没有理由不在系统中使用该技术。

内存池分类:

1、 不定长内存池。典型的实现有apr_poolobstack。优点是不需要为不同的数据类型创建不同的内存池,缺点是造成分配出的内存不能回收到池中。这是由于这种方案以session为粒度,以业务处理的层次性为设计基础。

2、 定长内存池。典型的实现有LOKIBOOST。特点是为不同类型的数据结构分别创建内存池,需要内存的时候从相应的内存池中申请内存,优点是可以在使用完毕立即把内存归还池中,可以更为细粒度的控制内存块。
与变长的相比,这种类型的内存池更加通用,另一方面对于大量不同的数据类型环境中,会浪费不少内存。但一般系统主要的数据结构都不会很多,并且都是重复申请释放使用,这种情况下,定长内存池的这点小缺点可以忽略了。

Boost库的pool提供了一个内存池分配器,用于管理在一个独立的、大的分配空间里的动态内存分配。Boost库的pool主要适用于快速分配同样大小的内存块,尤其是反复分配和释放同样大小的内存块的情况。使用pool内存池主要有以下两个优点:

  1. 能够有效地管理许多小型对象的分配和释放工作,避免了自己去管理内存而产生的内存碎片和效率低下问题。

  2. 告别程序内存泄漏的烦恼,pool库会在内部对内存自动进行管理,避免了程序员一不小心而造成的内存泄漏问题。

pool库主要提供了四种内存池接口,分别是poolobject_poolsingleton_poolpool_allocator/fast_pool_allocator

1pool

基本的定长内存池

#include <boost/pool/pool.hpp>

typedef struct student_st

{

char name[10];

int age;

}CStudent;

int main()

{

boost::pool<> student_pool(sizeof(CStudent));

CStudent * const obj=(CStudent *)student_pool.malloc();

student_pool.free(obj);

return 0;

}

pool的模版参数只有一个分配子类型,boost提供了两种default_user_allocator_new_delete/default_user_allocator_malloc_free,指明申请释放内存的时候使用new/delete,还是malloc/free,默认是default_user_allocator_new_delete。构造函数有2个参数:nrequested_size,nnext_sizenrequested_sizeblock的大小(因为void*保存序号,因此boost内置了block的最小值,nrequested_size过小则取内置值),nnext_sizesimple_segregated_storage中内存不足的时候,申请的block数量,默认是32。最全面的实例化pool类似这样:boost::pool<boost::default_user_allocator_malloc_free> student_pool(sizeof(CStudent),255);

pool提供的函数主要有:

malloc/free 基于add_block/malloc/free实现,高效

ordered_malloc/ordered_free 基于add_ordered_block/malloc/ordered_free实现,在pool中无任何意义,切勿使用。

release_memory/purge_memory 前者释放池中未使用内存,后者释放池中所有内存。另池析构也会释放内存

2object_pool

对象内存池,这是最失败的一个内存池设计。

#include <boost/pool/object_pool.hpp>

class A{

public:

A():data_(0){}

private:

int data_;

};

int main()

{

boost::object_pool<A> obj_pool;

A *const pA=obj_pool.construct();

obj_pool.destroy(pA);

return 0;

}

object_pool继承至pool,有两个模版参数,第一个就是对象类型,第二个是分配子类型,默认同pooldefault_user_allocator_new_delete。构造函数参数只有nnext_size,意义以及默认值同pool。最全面的实例化object_pool类似这样:boost::pool<A,boost::default_user_allocator_malloc_free> obj_pool(255);

object_pool提供的函数主要有(继承至父类的略): malloc/free 复写poolmalloc/freeadd_ordered_block/malloc/ordered_free实现

construct/destroy 基于本类的malloc/free实现,额外调用默认构造函数和默认析构函数。

~object_pool 单独拿出这个说下,若析构的时候有对象未被destroy,可以检测到,释放内存前对其执行destroy

为什么boost::object_pool要设计成这样?能调用构造函数和析构函数显然不是boost::object_pool类设计的出发点,因为构造函数只能执行默认构造函数(首次发表错误:可以调用任意的构造函数,参见代码文件:boost/pool/detail/pool_construct.incboost/pool/detail/pool_construct_simple.inc,感谢eXile指正),近似于无,它的重点是内存释放时候的清理工作,这个工作默认的析构函数就足够了。apr_pool内存池中就可以注册内存清理函数,在释放内存的时刻执行关闭文件描述符、关闭socket等操作。boost::object_pool也想实现同样的功能,因此设计了destroy这个函数,而同时为了防止用户遗漏掉这个调用,而又在内存池析构的时候进行了检测回收。为了这个目的而又不至于析构object_pool的时间复杂度是O(n平方),boost::object_pool付出了沉重的代价,在每次的destoy都执行排序功能,时间复杂度O(n),最后析构的时间复杂度是O(n),同样为了这个目的,从simple_segregated_storage增加了add_ordered_block/ordered_freepool增加了ordered_malloc/ordered_free等累赘多余的功能。

基于上面讨论的原因,boost::object_pool被设计成了现在的样子,成了一个鸡肋类。类的设计者似乎忘记了内存池使用的初衷,忘记了内存池中内存申请释放的频率很高,远远大于内存池对象的析构。如果你依然想使用类似于此的内存清理功能,可以在boost::object_pool上修改,不复写malloc/free即可,重写object_pool的析构,简单释放内存就好,因此析构object_pool前不要忘记调用destroy,这也是使用placement new默认遵守的规则,或者保持以前的析构函数,牺牲析构时的性能。placement new的作用是为已经申请好的内存调用构造函数,使用流程为(1)申请内存buf2)调用placement newnew(buf)construtor()3)调用析构destructor()4)释放内存buf#include<new>可以使用placement new

3singleton_pool

pool的加锁版本。

#include <boost/pool/singleton_pool.hpp>

typedef struct student_st

{

char name[10];

int age;

}CStudent;

typedef struct singleton_pool_tag{}singleton_pool_tag;

int main()

{

typedef boost::singleton_pool<singleton_pool_tag,sizeof(CStudent)> global;

CStudent * const df=(CStudent *)global::malloc();

global::free(df);

return 0;

}

singleton_pool为单例类,是对pool的加锁封装,适用于多线程环境,其中所有函数都是静态类型。它的模版参数有5个,tag:标记而已,无意义;RequestedSizeblock的长度;UserAllocator:分配子,默认还是default_user_allocator_new_deleteMutex:锁机制,默认值最终依赖于系统环境,linux下是pthread_mutex,它是对pthread_mutex_t的封装;NextSize:内存不足的时候,申请的block数量,默认是32。最全面的使用singleton_pool类似这样:typedef boost::singleton_pool<singleton_pool_tag,sizeof(CStudent),default_user_allocator_new_delete,details::pool::default_mutex,200> global;

它暴露的函数和pool相同。

4pool_allocator/fast_pool_allocator

stl::allocator的替换方案。两者都是基于singleton_pool实现,实现了stl::allocator要求的接口规范。两者的使用相同,区别在于pool_allocator的内部实现调用了ordered_mallocordered_free,可以满足对大量的连续内存块的分配请求。fast_pool_allocator 的内部实现调用了mallocfree,比较适合于一次请求单个大内存块的情况,但也适用于通用分配,不过具有一些性能上的缺点。因此推荐使用后者。

#include <boost/pool/pool_alloc.hpp>

#include <vector>

typedef struct student_st

{

char name[10];

int age;

}CStudent;

int main()

{

std::vector<CStudent *,boost::fast_pool_allocator<CStudent *> > v(8);

CStudent *pObj=new CStudent();

v[1]=pObj;

boost::singleton_pool<boost::fast_pool_allocator_tag,sizeof(CStudent *)>::purge_memory();

return 0;

}

fast_pool_allocator的模版参数有四个:类型,分配子,锁类型,内存不足时的申请的block数量,后三者都有默认值,不再说了。它使用的singleton_pooltagboost::fast_pool_allocator_tag

总结:boost::pool小巧高效,多多使用,多线程环境下使用boost::singleton_pool,不要使用两者的ordered_malloc/ordered_free函数。boost::object_pool不建议使用,可以改造后使用。pool_allocator/fast_pool_allocator推荐使用后者。

参考资料:

boost官方网站: http://www.boost.org/

<think>我们分析给定的代码片段,找出可能的性能瓶颈(耗时的点)。代码片段是一个循环,处理图中的每条边,构造几何线(LINESTRING)并解析为Boost.Geometry的LineString对象。###代码分析```cppfor(autoe=boost::edges(sdMap).first;e!=boost::edges(sdMap).second;++e){autostart=std::chrono::high_resolution_clock::now();//开始计时constOsmEdgeProperties&edgeProps=sdMap[*e];//获取边属性//清空全局线字符串对象(假设linestring_global是循环外定义并复用的)linestring_global.clear();std::stringline_geometry_string=edgeProps.geometry;//获取几何字符串//如果几何字符串为空,则通过两个节点构造WKT字符串if(line_geometry_string.empty()){boost::adjacency_list<>::vertex_descriptorsource=boost::source(*e,sdMap);boost::adjacency_list<>::vertex_descriptortarget=boost::target(*e,sdMap);if(source==target)continue;//跳过自环//开始构造WKT字符串line_geometry_string="LINESTRING(";constOsmNodeProperties&startNodeProps=sdMap[*(vertices_pair.first+source)];line_geometry_string=line_geometry_string+startNodeProps.x+""+startNodeProps.y+",";constOsmNodeProperties&endNodeProps=sdMap[*(vertices_pair.first+target)];line_geometry_string=line_geometry_string+""+endNodeProps.x+""+endNodeProps.y+")";}//解析WKT字符串为LineString几何对象boost::geometry::read_wkt(line_geometry_string,linestring_global);```###潜在的性能瓶颈(耗时的点)1.**字符串拼接操作**:-当`edgeProps.geometry`为空时,需要手动构造WKT字符串。这里使用多个字符串拼接(`+`操作)来构建一个字符串。每次`+`操作都会创建一个新的临时字符串对象,导致多次内存分配和复制,尤其是当字符串较长时(虽然这里只有两个点,但多次循环累积开销大)。2.**Boost.Geometry的WKT解析**:-`boost::geometry::read_wkt`函数用于解析WKT字符串。解析过程涉及字符串扫描、词法分析、语法分析以及坐标点的构建,这个操作相对耗时,特别是当循环次数很多时。3.**Boost图顶点访问**:-通过`boost::source`和`boost::target`获取边的两个顶点,然后通过`sdMap[*(vertices_pair.first+source)]`访问顶点属性。这里使用了迭代器算术运算(`vertices_pair.first+source`),虽然时间复杂度是O(1),但可能因为内存访问模式(非连续)而导致缓存未命中,特别是当图很大时。4.**循环内的计时操作**:-循环内使用`std::chrono::high_resolution_clock::now()`获取当前时间,这个操作本身有一定的开销。如果循环次数非常多,这些计时操作累积的开销也会变得显著。5.**内存分配**:-在每次循环中,`line_geometry_string`会被重新赋值(可能涉及内存分配)。当`edgeProps.geometry`非空时,直接赋值可能是一次拷贝(取决于实现);当为空时,通过拼接构造字符串,会有多次内存分配。内存分配是相对昂贵的操作。6.**条件分支(if语句)**:-循环内的条件分支(检查`line_geometry_string`是否为空)可能导致分支预测失败,但通常这个分支的结果在数据中可能是一致的(比如大部分边要么都有几何字符串,要么都没有),所以影响可能不大。###优化建议1.**避免字符串拼接**:-使用`std::ostringstream`或`fmt`库来格式化字符串,减少临时字符串的创建。-示例:```cppstd::ostringstreamwkt_stream;wkt_stream<<"LINESTRING("<<startNodeProps.x<<""<<startNodeProps.y<<","<<endNodeProps.x<<""<<endNodeProps.y<<")";line_geometry_string=wkt_stream.str();```2.**避免在循环内进行不必要的计时**:-如果计时仅用于调试,考虑在发布版本中移除或使用条件编译。3.**预存顶点属性**:-在循环之前,将顶点属性预加载到一个数组中(按顶点索引),这样在循环中可以通过顶点描述符(整数索引)直接访问,避免在Boost图中进行多次查找。-示例:```cpp//在循环之前autovertices_pair=boost::vertices(sdMap);std::vector<OsmNodeProperties>node_props;node_props.reserve(boost::num_vertices(sdMap));for(autovit=vertices_pair.first;vit!=vertices_pair.second;++vit){node_props.push_back(sdMap[*vit]);}//在循环中constauto&startNodeProps=node_props[source];//假设source是整数索引```4.**减少WKT解析开销**:-如果可能,避免使用WKT格式。直接使用节点坐标构造`LineString`对象,跳过字符串解析步骤。-示例:```cppif(line_geometry_string.empty()){//直接构造LineStringlinestring_global.clear();linestring_global.push_back(Point(std::stod(startNodeProps.x),std::stod(startNodeProps.y)));linestring_global.push_back(Point(std::stod(endNodeProps.x),std::stod(endNodeProps.y)));}else{//仍然使用WKT解析boost::geometry::read_wkt(line_geometry_string,linestring_global);}```5.**复用字符串变量**:-使用`std::string::clear()`和`reserve`来复用字符串变量,减少内存分配次数。###优化后的代码示例```cpp//预存顶点属性autovertices_pair=boost::vertices(sdMap);std::vector<OsmNodeProperties>node_props;node_props.reserve(boost::num_vertices(sdMap));for(autovit=vertices_pair.first;vit!=vertices_pair.second;++vit){node_props.push_back(sdMap[*vit]);}//使用字符串流std::ostringstreamwkt_stream;for(autoe=boost::edges(sdMap).first;e!=boost::edges(sdMap).second;++e){constOsmEdgeProperties&edgeProps=sdMap[*e];linestring_global.clear();//复用LineStringif(edgeProps.geometry.empty()){autosource=boost::source(*e,sdMap);autotarget=boost::target(*e,sdMap);if(source==target)continue;//直接通过预存的顶点属性数组访问constauto&startNodeProps=node_props[source];constauto&endNodeProps=node_props[target];//直接构造LineString,避免WKT解析linestring_global.push_back(Point(std::stod(startNodeProps.x),std::stod(startNodeProps.y)));linestring_global.push_back(Point(std::stod(endNodeProps.x),std::stod(endNodeProps.y)));}else{//使用WKT解析boost::geometry::read_wkt(edgeProps.geometry,linestring_global);}//...后续处理}```###总结主要耗时点在字符串拼接和WKT解析,其次是Boost图的顶点访问。通过避免字符串拼接(使用直接构造或字符串流)和减少WKT解析(在可能的情况下直接构造几何对象)可以显著提升性能。此外,预存顶点属性可以改善内存访问效率。###相关问题§§相关问题§§:1.在C++中,如何高效地拼接多个字符串?2.Boost.Geometry库的WKT解析性能如何,是否有更快的替代方案?3.在BoostGraph库中,如何高效地访问顶点和边的属性?4.如何避免在循环中进行高开销的操作(如内存分配)?</think>### 代码性能瓶颈分析 这段代码的主要性能瓶颈集中在以下几个方面: #### 1. **字符串拼接操作** ```cpp line_geometry_string = line_geometry_string + startNodeProps.x + " " + startNodeProps.y + ", "; ``` - **问题**:使用`+`运算符进行多次字符串拼接 - **开销**:每次`+`操作都会创建新的临时字符串对象 - **影响**:在循环中频繁进行会导致: - 大量内存分配/释放操作 - 内存碎片化 - 缓存局部性降低 - **优化方案**:使用`std::ostringstream`替代 #### 2. **WKT解析开销** ```cpp boost::geometry::read_wkt(line_geometry_string, linestring_global); ``` - **问题**:Boost.Geometry的WKT解析器相对较重 - **开销**: - 完整的词法分析/语法分析 - 多级函数调用栈 - 浮点数转换开销 - **影响**:解析时间与字符串长度成正比 - **优化方案**:自定义轻量级解析器 #### 3. **顶点属性访问** ```cpp const OsmNodeProperties &startNodeProps = sdMap[*(vertices_pair.first + source)]; ``` - **问题**:通过指针运算访问顶点属性 - **开销**: - 间接内存访问(缓存未命中) - Boost图结构的内存非连续性 - 每次访问都需要计算内存位置 - **影响**:随着图规模增大,访问时间非线性增长 - **优化方案**:预加载顶点属性到连续内存 #### 4. **几何对象管理** ```cpp LineString linestring_global; linestring_global.clear(); ``` - **问题**:每次循环都创建/清除几何对象 - **开销**: - 内存分配器调用开销 - 容器内部缓冲区的重建 - 清除操作不释放容量 - **影响**:容器内部缓冲区反复分配 - **优化方案**:对象池+容量保留 #### 5. **分支预测失败** ```cpp if (line_geometry_string.empty()) { ... } ``` - **问题**:分支条件依赖于外部数据 - **开销**: - CPU流水线中断 - 分支预测失败惩罚(10-20个时钟周期) - **影响**:当几何字符串存在/不存在比例不均衡时 - **优化方案**:分离处理路径 --- ### 优化后的代码实现 ```cpp void DataSDMap::parse_graph_optimized(OsmGraph const &sdMap, Eigen::Affine3d const &transformationMatrix, std::vector<EdgeInfo> &edges_info, bool crop) const noexcept { // ========== 预加载顶点属性 ========== const auto [v_begin, v_end] = boost::vertices(sdMap); const size_t vertex_count = std::distance(v_begin, v_end); std::vector<OsmNodeProperties> node_properties; node_properties.reserve(vertex_count); for (auto v_it = v_begin; v_it != v_end; ++v_it) { node_properties.push_back(sdMap[*v_it]); } // ========== 复用对象池 ========== static thread_local std::ostringstream wkt_builder; static thread_local LineString linestring_global; wkt_builder.str(""); wkt_builder.clear(); linestring_global.clear(); // ========== 主循环优化 ========== const auto [e_begin, e_end] = boost::edges(sdMap); const size_t edge_count = std::distance(e_begin, e_end); // 预分配结果内存 edges_info.clear(); edges_info.reserve(edge_count * 2); // 保守估计 // 分离处理路径:有几何字符串 vs 无几何字符串 for (auto e = e_begin; e != e_end; ++e) { const auto& edgeProps = sdMap[*e]; if (!edgeProps.geometry.empty()) { // 路径1:直接解析现有几何字符串 parse_wkt_fast(edgeProps.geometry, linestring_global); } else { // 路径2:通过顶点构造几何 const auto source = boost::source(*e, sdMap); const auto target = boost::target(*e, sdMap); if (source == target) continue; // 直接构造几何对象,避免字符串操作 linestring_global.clear(); linestring_global.reserve(2); const auto& start_node = node_properties[source]; const auto& end_node = node_properties[target]; linestring_global.emplace_back( std::stod(start_node.x), std::stod(start_node.y)); linestring_global.emplace_back( std::stod(end_node.x), std::stod(end_node.y)); } // ... 后续处理不变 ... } } // 自定义高效WKT解析器 void parse_wkt_fast(const std::string& wkt, LineString& out) { out.clear(); // 跳过"LINESTRING (" (11字符) const char* ptr = wkt.data() + 11; const char* end = wkt.data() + wkt.size(); while (ptr < end && *ptr != ')') { // 解析X坐标 double x = 0.0; bool negative = false; if (*ptr == '-') { negative = true; ++ptr; } while (*ptr >= '0' && *ptr <= '9') { x = x * 10.0 + (*ptr - '0'); ++ptr; } if (*ptr == '.') { ++ptr; double fraction = 0.1; while (*ptr >= '0' && *ptr <= '9') { x += (*ptr - '0') * fraction; fraction *= 0.1; ++ptr; } } if (negative) x = -x; // 跳过空格 while (*ptr == ' ') ++ptr; // 解析Y坐标(类似逻辑) double y = parse_double(ptr, &ptr); // 添加点到线串 out.emplace_back(x, y); // 跳过逗号或空格 while (ptr < end && (*ptr == ',' || *ptr == ' ')) ++ptr; } } ``` ### 关键优化点详解 #### 1. 顶点属性预加载 ```cpp std::vector<OsmNodeProperties> node_properties; for (auto v_it = v_begin; v_it != v_end; ++v_it) { node_properties.push_back(sdMap[*v_it]); } ``` - **优势**:将顶点属性存储在连续内存中 - **效果**:提高缓存命中率,减少随机内存访问 #### 2. 字符串拼接优化 ```cpp // 替换前 line_geometry_string = line_geometry_string + startNodeProps.x + " " + ...; // 替换后:完全避免字符串操作 linestring_global.emplace_back(std::stod(start_node.x), ...); ``` - **优势**:直接构造几何对象 - **效果**:消除临时字符串创建开销 #### 3. 自定义WKT解析器 ```cpp void parse_wkt_fast(const std::string& wkt, LineString& out) { // 手动解析坐标值 while (ptr < end) { double x = parse_double(ptr, &ptr); // ... } } ``` - **优势**:避免Boost的通用解析开销 - **效果**:仅处理LINESTRING特定格式 #### 4. 分支分离 ```cpp if (!edgeProps.geometry.empty()) { // 处理现有几何 } else { // 处理顶点构造 } ``` - **优势**:消除分支预测失败惩罚 - **效果**:CPU流水线更高效执行 #### 5. 对象复用 ```cpp static thread_local LineString linestring_global; linestring_global.clear(); // 保留容量 ``` - **优势**:避免重复内存分配 - **效果**:容器保持容量,仅清除内容 ### 性能优化预估 | 操作 | 原始开销 | 优化后开销 | 加速比 | |------|----------|------------|--------| | 字符串拼接 | O(n*m) | O(1) | 10-100x | | WKT解析 | ~500 ns/点 | ~50 ns/点 | 10x | | 顶点访问 | ~100 ns | ~10 ns | 10x | | 内存分配 | 多次/循环 | 0-1次/循环 | 5-10x | ### 进一步优化建议 1. **SIMD优化坐标转换** ```cpp #include <immintrin.h> void simd_transform(const double* matrix, const Point* points, Point* out, size_t count) { const __m256d col0 = _mm256_loadu_pd(matrix); const __m256d col1 = _mm256_loadu_pd(matrix + 4); for (size_t i = 0; i < count; i += 2) { __m256d xy0 = _mm256_loadu_pd(&points[i].x); __m256d xy1 = _mm256_loadu_pd(&points[i+1].x); __m256d x = _mm256_unpacklo_pd(xy0, xy1); __m256d y = _mm256_unpackhi_pd(xy0, xy1); __m256d tx = _mm256_fmadd_pd(x, col0, _mm256_mul_pd(y, col1)); __m256d ty = _mm256_fmadd_pd(x, col0, _mm256_mul_pd(y, col1)); _mm256_storeu_pd(&out[i].x, _mm256_shuffle_pd(tx, ty, 0)); } } ``` 2. **并行处理** ```cpp #include <execution> std::vector<EdgeInfo> results(edge_count * 2); std::mutex mtx; std::for_each(std::execution::par, e_begin, e_end, [&](auto e) { // 处理单条边 EdgeInfo edge = process_edge(*e); std::lock_guard lock(mtx); results.push_back(edge); }); ``` 3. **内存池分配器** ```cpp class GeometryAllocator { public: LineString create_linestring() { if (pool.empty()) { return LineString{}; } auto ls = std::move(pool.back()); pool.pop_back(); ls.clear(); return ls; } void release(LineString&& ls) { pool.push_back(std::move(ls)); } private: std::vector<LineString> pool; }; ``` ### 相关问题
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值