C++编程实践——string::append的高效性

原创于 2025-12-01 12:20:48 发布 · 831 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#c++

C++ 同时被 2 个专栏收录

476 篇文章

订阅专栏

C++11

355 篇文章

订阅专栏

一、说明

在面试过程中，对字符串的各种处理是最常见的。因为这种字符串的处理有很多种方法，非常容易考查出面试者的整体的技术范围和对细节把握的程度。而字符串处理也是对效率要求非常高的一个环节，特别是在实际工程中，一些日志或数据需要进行字符串拼凑时，往往会对内存的处理产生影响，进而导致效率的下降。
大家在看一些面试资料和相关的开发书籍中可以发现，以字符串作为例子进行优化说明的场景非常普遍，这就说明字符串的优化是一个很典型的靶子。本文就针对其也展开一些细节上的分析和说明。

二、常见的字符串拼接方法

在开发者常用的字符串拼接方法中，直接“+”或“+=”可能是最常见的。这对于一些简单的字符串的拼接，其实没有什么问题。就如前面分析排序算法一样，对于一个只有十个数排序的算法，哪个算法都体现不出革命性的优势。但如果这种字符串的拼接很多且较长时，就需要考虑性能和内存效率的问题了（但是不是一直都是这样呢？看后面的说明）。
一般的开发者被建议过，要使用append而尽量不要使用“+”或“+=”。都说append的效率更高、性能也更好等。那么，它到底好在哪儿？优势从哪里来呢？

三、std::append的特点

std::append的优势可以从算法层面、内存处理层面和移动语义等多个方向上来进行分析，主要包括：

内存的预分配
这点有点类似于std::vector，append在连续追加字符串时，内存分配的增长是以一个指数的级别增加的，从而达到了减少内存分配的次数，提高效率的结果，比如下面的代码：

std::string result = "start:";
for (int i = 0;i< 100000;i++){result.append("OK");}

append对数据的处理采用的批量拷贝
其实就是批处理一般情况下效率都会比多次的单次处理效率要高。在实现的内部代码中，采用了类似memcpy这种直接内存块拷贝
SSO优化
这个在前面分析过，std::string的内存分配中就使用了这种小字符串优化。对于一定范围内的短字符串直接在栈上处理，减少了堆内存分配。有兴趣可以翻看一下前面的“小对象优化”
编译器优化的边界检查
即通过编译期提前进行边界检查，尽量减少在实际运行时的边界检查，从而减少了分支代码的判断，提高了性能
移动语义的支持
这个是新版本后支持的，大家都明白，std::move移动语义的速度比拷贝要快的多,特别是在大字符串时，看代码：

std::string use100k_str = "...";//假设100K大小
std::string test = "";
test.append(std::move(use100k_str));

对不同追加字符串类型进行优化
在append的函数实现中，分别增加了不同的类型情况下append的处理方式，比如单个字符、C语言类型的字符串及常量字符串等的优化

从上面的分析可看到，要想提高std::string的处理效率，一定要避免内存的反复分析，减少内存的拷贝，增加细节上的优化（如SSO及不同类型的处理等），使用新的标准提供的接口（如std::format）等等。下面看一下其源码实现：

basic_string&
      append(const basic_string& __str)
      { return this->append(__str._M_data(), __str.size()); }

      _GLIBCXX20_CONSTEXPR
      basic_string&
      append(const basic_string& __str, size_type __pos, size_type __n = npos)
      { return this->append(__str._M_data()
			    + __str._M_check(__pos, "basic_string::append"),
			    __str._M_limit(__pos, __n)); }

      _GLIBCXX20_CONSTEXPR
      basic_string&
      append(const _CharT* __s, size_type __n)
      {
	__glibcxx_requires_string_len(__s, __n);
	_M_check_length(size_type(0), __n, "basic_string::append");
	return _M_append(__s, __n);
      }

      _GLIBCXX20_CONSTEXPR
      basic_string&
      append(const _CharT* __s)
      {
	__glibcxx_requires_string(__s);
	const size_type __n = traits_type::length(__s);
	_M_check_length(size_type(0), __n, "basic_string::append");
	return _M_append(__s, __n);
      }

      _GLIBCXX20_CONSTEXPR
      basic_string&
      append(size_type __n, _CharT __c)
      { return _M_replace_aux(this->size(), size_type(0), __n, __c); }

#if __cplusplus >= 201103L

      _GLIBCXX20_CONSTEXPR
      basic_string&
      append(initializer_list<_CharT> __l)
      { return this->append(__l.begin(), __l.size()); }
#endif // C++11

#if __cplusplus >= 201103L
      template<class _InputIterator,
	       typename = std::_RequireInputIter<_InputIterator>>
	_GLIBCXX20_CONSTEXPR
#else
      template<class _InputIterator>
#endif
        basic_string&
        append(_InputIterator __first, _InputIterator __last)
        { return this->replace(end(), end(), __first, __last); }

#if __cplusplus >= 201703L

      template<typename _Tp>
	_GLIBCXX20_CONSTEXPR
        _If_sv<_Tp, basic_string&>
        append(const _Tp& __svt)
        {
          __sv_type __sv = __svt;
          return this->append(__sv.data(), __sv.size());
        }

      template<typename _Tp>
	_GLIBCXX20_CONSTEXPR
        _If_sv<_Tp, basic_string&>
	append(const _Tp& __svt, size_type __pos, size_type __n = npos)
	{
	  __sv_type __sv = __svt;
	  return _M_append(__sv.data()
	      + std::__sv_check(__sv.size(), __pos, "basic_string::append"),
	      std::__sv_limit(__sv.size(), __pos, __n));
	}
#endif // C++17

不过这里有一些代码比较有意思，大家可以看一看：

      _GLIBCXX20_CONSTEXPR  //用于启动C++20中的constexpr特性的宏
      basic_string&
      operator+=(initializer_list<_CharT> __l)
      { return this->append(__l.begin(), __l.size()); }
#endif // C++11

#if __cplusplus >= 201703L

      template<typename _Tp>
	_GLIBCXX20_CONSTEXPR
	_If_sv<_Tp, basic_string&>
	operator+=(const _Tp& __svt)
	{ return this->append(__svt); }

在到达指定版本后（在当前代码中预定义宏是“__cplusplus >= 201703L”，具体的可能有所不同），“+=”操作其实已经基本等同于append了。所以相关的效率和性能问题，还是和C++的版本关系密切。

四、例程

根据上面的分析，再看一下cppreference上提供的代码：

#include <cassert>
#include <string>
 
int main()
{
    std::string str = "std::string";
    const char* cptr = "C-string";
    const char carr[] = "range";
 
    std::string result;
 
    // 1) Append a char 3 times.
    // Note: This is the only overload accepting “CharT”s.
    result.append(3, '*');
    assert(result == "***");
 
    // 2) Append a fixed-length C-string
    result.append(cptr, 5);
    assert(result == "***C-str");
 
    // 3) Append a null-terminated C-string
    // Note: Because “append” returns *this, we can chain calls together.
    result.append(1, ' ').append(cptr);
    assert(result == "***C-str C-string");
 
    // 6) Append a whole string
    result.append(1, ' ').append(str);
    assert(result == "***C-str C-string std::string");
 
    // 7) Append part of a string
    result.append(str, 3, 2);
    assert(result == "***C-str C-string std::string::");
 
    // 8) Append range
    result.append(&carr[2], &carr[3]);
    assert(result == "***C-str C-string std::string::n");
 
    // 9) Append initializer list
    result.append({'p', 'o', 's'});
    assert(result == "***C-str C-string std::string::npos");
}