C++编程实践——string::append的高效性

一、说明

在面试过程中,对字符串的各种处理是最常见的。因为这种字符串的处理有很多种方法,非常容易考查出面试者的整体的技术范围和对细节把握的程度。而字符串处理也是对效率要求非常高的一个环节,特别是在实际工程中,一些日志或数据需要进行字符串拼凑时,往往会对内存的处理产生影响,进而导致效率的下降。
大家在看一些面试资料和相关的开发书籍中可以发现,以字符串作为例子进行优化说明的场景非常普遍,这就说明字符串的优化是一个很典型的靶子。本文就针对其也展开一些细节上的分析和说明。

二、常见的字符串拼接方法

在开发者常用的字符串拼接方法中,直接“+”或“+=”可能是最常见的。这对于一些简单的字符串的拼接,其实没有什么问题。就如前面分析排序算法一样,对于一个只有十个数排序的算法,哪个算法都体现不出革命性的优势。但如果这种字符串的拼接很多且较长时,就需要考虑性能和内存效率的问题了(但是不是一直都是这样呢?看后面的说明)。
一般的开发者被建议过,要使用append而尽量不要使用“+”或“+=”。都说append的效率更高、性能也更好等。那么,它到底好在哪儿?优势从哪里来呢?

三、std::append的特点

std::append的优势可以从算法层面、内存处理层面和移动语义等多个方向上来进行分析,主要包括:

  1. 内存的预分配
    这点有点类似于std::vector,append在连续追加字符串时,内存分配的增长是以一个指数的级别增加的,从而达到了减少内存分配的次数,提高效率的结果,比如下面的代码:
std::string result = "start:";
for (int i = 0;i< 100000;i++){result.append("OK");}
  1. append对数据的处理采用的批量拷贝
    其实就是批处理一般情况下效率都会比多次的单次处理效率要高。在实现的内部代码中,采用了类似memcpy这种直接内存块拷贝
  2. SSO优化
    这个在前面分析过,std::string的内存分配中就使用了这种小字符串优化。对于一定范围内的短字符串直接在栈上处理,减少了堆内存分配。有兴趣可以翻看一下前面的“小对象优化”
  3. 编译器优化的边界检查
    即通过编译期提前进行边界检查,尽量减少在实际运行时的边界检查,从而减少了分支代码的判断,提高了性能
  4. 移动语义的支持
    这个是新版本后支持的,大家都明白,std::move移动语义的速度比拷贝要快的多,特别是在大字符串时,看代码:
std::string use100k_str = "...";//假设100K大小
std::string test = "";
test.append(std::move(use100k_str));
  1. 对不同追加字符串类型进行优化
    在append的函数实现中,分别增加了不同的类型情况下append的处理方式,比如单个字符、C语言类型的字符串及常量字符串等的优化

从上面的分析可看到,要想提高std::string的处理效率,一定要避免内存的反复分析,减少内存的拷贝,增加细节上的优化(如SSO及不同类型的处理等 ),使用新的标准提供的接口(如std::format)等等。下面看一下其源码实现:

basic_string&
      append(const basic_string& __str)
      { return this->append(__str._M_data(), __str.size()); }

      _GLIBCXX20_CONSTEXPR
      basic_string&
      append(const basic_string& __str, size_type __pos, size_type __n = npos)
      { return this->append(__str._M_data()
			    + __str._M_check(__pos, "basic_string::append"),
			    __str._M_limit(__pos, __n)); }

      _GLIBCXX20_CONSTEXPR
      basic_string&
      append(const _CharT* __s, size_type __n)
      {
	__glibcxx_requires_string_len(__s, __n);
	_M_check_length(size_type(0), __n, "basic_string::append");
	return _M_append(__s, __n);
      }

      _GLIBCXX20_CONSTEXPR
      basic_string&
      append(const _CharT* __s)
      {
	__glibcxx_requires_string(__s);
	const size_type __n = traits_type::length(__s);
	_M_check_length(size_type(0), __n, "basic_string::append");
	return _M_append(__s, __n);
      }

      _GLIBCXX20_CONSTEXPR
      basic_string&
      append(size_type __n, _CharT __c)
      { return _M_replace_aux(this->size(), size_type(0), __n, __c); }

#if __cplusplus >= 201103L

      _GLIBCXX20_CONSTEXPR
      basic_string&
      append(initializer_list<_CharT> __l)
      { return this->append(__l.begin(), __l.size()); }
#endif // C++11

#if __cplusplus >= 201103L
      template<class _InputIterator,
	       typename = std::_RequireInputIter<_InputIterator>>
	_GLIBCXX20_CONSTEXPR
#else
      template<class _InputIterator>
#endif
        basic_string&
        append(_InputIterator __first, _InputIterator __last)
        { return this->replace(end(), end(), __first, __last); }

#if __cplusplus >= 201703L

      template<typename _Tp>
	_GLIBCXX20_CONSTEXPR
        _If_sv<_Tp, basic_string&>
        append(const _Tp& __svt)
        {
          __sv_type __sv = __svt;
          return this->append(__sv.data(), __sv.size());
        }

      template<typename _Tp>
	_GLIBCXX20_CONSTEXPR
        _If_sv<_Tp, basic_string&>
	append(const _Tp& __svt, size_type __pos, size_type __n = npos)
	{
	  __sv_type __sv = __svt;
	  return _M_append(__sv.data()
	      + std::__sv_check(__sv.size(), __pos, "basic_string::append"),
	      std::__sv_limit(__sv.size(), __pos, __n));
	}
#endif // C++17

不过这里有一些代码比较有意思,大家可以看一看:

      _GLIBCXX20_CONSTEXPR  //用于启动C++20中的constexpr特性的宏
      basic_string&
      operator+=(initializer_list<_CharT> __l)
      { return this->append(__l.begin(), __l.size()); }
#endif // C++11

#if __cplusplus >= 201703L

      template<typename _Tp>
	_GLIBCXX20_CONSTEXPR
	_If_sv<_Tp, basic_string&>
	operator+=(const _Tp& __svt)
	{ return this->append(__svt); }

在到达指定版本后(在当前代码中预定义宏是“__cplusplus >= 201703L”,具体的可能有所不同),“+=”操作其实已经基本等同于append了。所以相关的效率和性能问题,还是和C++的版本关系密切。

四、例程

根据上面的分析,再看一下cppreference上提供的代码:

#include <cassert>
#include <string>
 
int main()
{
    std::string str = "std::string";
    const char* cptr = "C-string";
    const char carr[] = "range";
 
    std::string result;
 
    // 1) Append a char 3 times.
    // Note: This is the only overload accepting “CharT”s.
    result.append(3, '*');
    assert(result == "***");
 
    // 2) Append a fixed-length C-string
    result.append(cptr, 5);
    assert(result == "***C-str");
 
    // 3) Append a null-terminated C-string
    // Note: Because “append” returns *this, we can chain calls together.
    result.append(1, ' ').append(cptr);
    assert(result == "***C-str C-string");
 
    // 6) Append a whole string
    result.append(1, ' ').append(str);
    assert(result == "***C-str C-string std::string");
 
    // 7) Append part of a string
    result.append(str, 3, 2);
    assert(result == "***C-str C-string std::string::");
 
    // 8) Append range
    result.append(&carr[2], &carr[3]);
    assert(result == "***C-str C-string std::string::n");
 
    // 9) Append initializer list
    result.append({'p', 'o', 's'});
    assert(result == "***C-str C-string std::string::npos");
}

其实很多的细节实现,开发者自己也能搞定。关键是,实践中经常遇到的往往并不对性能要求多高,这就导致广大的开发者还是以简单应用为主,就不会对此上心。但用不到不代表不应该明白其中的关节,大家可以看着上面的代码,再与前面的分析对应看一下,就会了解更多。

五、总结

如果大家在学习的过程中,发现库提供了另外一种与现有接口或库类似的方法,大家首先想的应该是为什么会提供一套类似的?它和现有的接口有什么不同?其实弄明白了这个问题,也就真正理解了库设计者的意图。这也是从小老师教导的,带着问题去学习的一个例子。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值