万字string类总结


目录

一、string类的介绍

二、string类的常用接口

1、构造函数

2. string类对象的容量操作

3. string类对象的访问及遍历操作

4. string类对象的修改操作 (重点)

5. string类非成员函数

6. vs和g++下string结构的说明

三、string类的模拟

1. 浅拷贝问题

2. 深拷贝

3. string类常用库函数的实现

4、写时拷贝(了解)


一、string类的介绍

1. 字符串是表示字符序列的类
2. 标准的字符串类提供了对此类对象的支持,其接口类似于标准字符容器的接口,但添加了专门用于操作单字节字符字符串的设计特性。
3. string类是使用char(即作为它的字符类型,使用它的默认char_traits和分配器类型(关于模板的更多信息,请参阅basic_string)。
4. string类是basic_string模板类的一个实例,它使用char来实例化basic_string模板类,并用char_traits和allocator作为basic_string的默认参数(根于更多的模板信息请参考basic_string)。
5. 注意,这个类独立于所使用的编码来处理字节:如果用来处理多字节或变长字符(如UTF-8)的序列,这个类的所有成员(如长度或大小)以及它的迭代器,将仍然按照字节(而不是实际编码的字符)来操作。 
总结:
1. string是表示字符串的字符串类
2. 该类的接口与常规容器的接口基本相同,再添加了一些专门用来操作string的常规操作。
3. string在底层实际是:basic_string模板类的别名,typedef basic_string<char, char_traits, allocator>string;
4. 不能操作多字节或者变长字符的序列。
注:在使用string类时,必须包含#include头文件以及using namespace std;
详细文章可以参考:string - C++ Reference (cplusplus.com)


二、string类的常用接口

1、构造函数

函数功能
string( )构造一个空的string类对象,即空字符串
string(const char* s)用字符串来构造一个string类对象
string(size_t n, char c)
string 类对象中包含 n 个字符 c
string(const string&s) 
拷贝构造函数

代码:

#include <iostream>
#include <string>
using namespace std;

int main()
{
    string s1;
    string s2("hello qingshan");
    string s3(3, 'x');
    string s4(s3);
    return 0;
}

2. string类对象的容量操作

函数功能
size返回字符串有效长度
capacity返回空间总大小
length返回字符串有效长度
empty
检测字符串是否为空串,是返回true,否则返回false
clear清空有效字符
reverse为字符串预留空间
resize
将有效字符的个数该成n个,多出的空间用字符c填充

size length

其实效果相同,只是由于某些原因创造出了一些多余的接口。 

capacity

string底层原理是一个字符数组,capacity代表的就是这个字符数组的容量大小。

int main()
{
    string s1;
    string s2("hello qingshan");
    cout << s2.size() << " " << s2.length() << endl;
    cout << s2.capacity() << endl;

    return 0;
}

clear

就是将string中的字符全部清空。

 可以看到clear之后s2变成了空。

reverse

一般是开更大的空间,值得说的是,一般都是异地扩容,将string类对象的容量扩容到指定个数(或者更大)。如果想要缩容的话,是不支持的。

resize

分为三种,重置的大小大于容量,那么就需要扩容,然后将扩容后的空间用字符c填充;如果小于容量但是大于有效字符长度,那么就直接用字符填充;如果小于有效字符长度,那么就直接缩减长度。(具体后文实现的时候会详细叙述)

注意:resize的第二个参数是将有效空间的字符都变成第二个参数中的字符。

int main()
{
    string s1;
    string s2("hello qingshan");
    cout << s2.size() << " " << s2.length() << endl;
    cout << s2.capacity() << endl;
    s2.clear();
    s2.reserve(20);
    s2.resize(20, 'q');
    cout << s2.capacity() << endl;
    cout << s2 << endl;
    return 0;
}

 这里编译器是按照2倍数扩容了。

  

3. string类对象的访问及遍历操作

operator[ ]

 返回pos位置的字符

代码:

int main()
{
    string s1;
    string s2("hello qingshan");
    cout << s2[1] << endl;
    return 0;
}

   

begin+ end

begin获取一个字符的迭代器 + end获取最后一个字符下一个位置的迭代器

一般来说迭代器可能指针,但有时候也可能不是。

int main()
{
    string s1;
    string s2("hello qingshan");
    string::iterator it = s2.begin();
    while (it != s2.end())
    {
        cout << *it << " ";
        it++;
    }
    cout << endl;

    return 0;
}

 迭代器就是遍历的另一种方式

  

rbegin + rend

begin获取一个字符的迭代器 + end获取最后一个字符下一个位置的迭代器
代码:
int main()
{
    string s1;
    string s2("hello qingshan");
    string::reverse_iterator it = s2.rbegin();
    while (it != s2.rend())
    {
        cout << *it << " ";
        it++;
    }
    cout << endl;

    return 0;
}

 这其实调用的是反向迭代器,所以遍历的时候也是反向遍历。

  

范围for

C++11支持更简洁的范围for的新遍历方式
代码:
int main()
{
    string s1;
    string s2("hello qingshan");
    for (auto ch : s2)
    {
        cout << ch << " ";
    }
    cout << endl;
    return 0;
}

ch每次取一个s1中的元素。

其实,范围for看着很神奇,底层用的也是迭代器。

 

4. string类对象的修改操作 (重点)

push_back

尾部插入字符

 
 

append

在尾部追加

 可以看到用法有很多,最常用的其实就是追加字符和追加字符串。

代码:

int main()
{
    string s1;
    string s2("hello qingshan");
    s2.append("!");
    s2.append("hahaha");
    cout << s2 << endl;
    return 0;
}

   

opeartor +=

在字符串后追加

 追加分为三种:1、字符。 2、字符数组。3、字符串。

  

c_str

返回c格式字符串

也就是返回底层的那个指向字符数组的字符指针

int main()
{
    string s1;
    string s2("hello qingshan");
 
    cout << s2.c_str() << endl;
    return 0;
}

   

find函数+ npos

find是查找函数,npos是string类型中的值为-1的 size_t类型的数,size_t其实是无符号整型。

 查找一般默认是从0位置开始。找到了返回该位置,没找到返回npos。

int main()
{
    string s1;
    string s2("hello qingshan");
    cout << s2.find("n") << endl;

    return 0;
}

   

rfind

反向查找所要找的内容。
 
int main()
{
    string s1;
    string s2("hello qingshan");
    cout << s2.rfind("n") << endl;

    return 0;
}

 这里返回的pos还是按照正向顺序来的,并不是反向从0开始数。

  

substr

在str中从pos位置开始,截取n个字符,然后将其返回
int main()
{
    string s1;
    string s2("hello qingshan");
    size_t pos = s2.rfind("q");
    cout << s2.substr(pos, 8) << endl;

    return 0;
}

   

5. string类非成员函数

operator+

尽量少用,因为传值返回,导致深拷贝效率低
  
 

operator>> 

>>重载之后我们就可以直接通过cin向string类对象中输入数据了,但是不能有空格,空格会自动截断。

operator<< 

<<重载之后就可以直接通过cout输出string类对象的内容了。

getline 

获取一行内容

 第一个参数必须是输入流,第二个才是填string类对象。

代码:

int main()
{
    string s1;
    string s2("hello qingshan");
    getline(cin, s1);
    cout << s1 << endl;

    return 0;
}

  

relational operators

也就是string类对象的比较函数

代码:

#include <iostream>
#include <vector>

int main ()
{
  std::string foo = "alpha";
  std::string bar = "beta";

  if (foo==bar) std::cout << "foo and bar are equal\n";
  if (foo!=bar) std::cout << "foo and bar are not equal\n";
  if (foo< bar) std::cout << "foo is less than bar\n";
  if (foo> bar) std::cout << "foo is greater than bar\n";
  if (foo<=bar) std::cout << "foo is less than or equal to bar\n";
  if (foo>=bar) std::cout << "foo is greater than or equal to bar\n";

  return 0;
}

6. vs和g++下string结构的说明

注意:下述结构是在32位平台下进行验证,32位平台下指针占4个字节。
· vs下string的结构
string总共占28个字节,内部结构稍微复杂一点,先是有一个联合体,联合体用来定义string中字
符串的存储空间:
当字符串长度小于16时,使用内部固定的字符数组来存放
当字符串长度大于等于16时,从堆上开辟空间
union _Bxty
{ // storage for small buffer or pointer to larger one
 value_type _Buf[_BUF_SIZE];
 pointer _Ptr;
 char _Alias[_BUF_SIZE]; // to permit aliasing
} _Bx;
这种设计也是有一定道理的,大多数情况下字符串的长度都小于 16 ,那 string 对象创建好之后,内
部已经有了 16 个字符数组的固定空间,不需要通过堆创建,效率高。
其次:还有 一个 size_t 字段保存字符串长度,一个 size_t 字段保存从堆上开辟空间总的容量
最后:还 有一个指针 做一些其他事情。
故总共占 16+4+4+4=28 个字节。

· g++下string的结构

G++下,string是通过写时拷贝实现的,string对象总共占4个字节,内部只包含了一个指针,该指
针将来指向一块堆空间,内部包含了如下字段:
        ` 空间总大小
        ` 字符串有效长度
        ` 引用计数
struct _Rep_base
{
 size_type _M_length;
 size_type _M_capacity;
 _Atomic_word _M_refcount;
};

三、string类的模拟

1. 浅拷贝问题

浅拷贝:也称位拷贝,编译器只是将对象中的值拷贝过来。如果对象中管理资源,最后就会导致多个对象共享同一份资源,当一个对象销毁时就会将该资源释放掉,而此时另一些对象不知道该资源已经被释放,以为还有效,所以当继续对资源进项操作时,就会发生发生了访问违规。

  

我们看下面这段代码:

class String
{
public:
    String(const char* str = "")
    {
        if (nullptr == str)
        {
            assert(false);
            return;
        }
        _str = new char[strlen(str) + 1];
        strcpy(_str, str);
    }
    ~String()
    {
        if (_str)
        {
            delete[] _str;
            _str = nullptr;
        }
    }
private:
    char* _str;
};
// 测试
void TestString()
{
    String s1("hello bit!!!");
    String s2(s1);
}

说明:上述String类没有显式定义其拷贝构造函数与赋值运算符重载,此时编译器会合成默认的,当用s1构造s2时,编译器会调用默认的拷贝构造。最终导致的问题是,s1、s2共用同一块内存空间,在释放时同一块空间被释放多次而引起程序崩溃,这种拷贝方式,称为浅拷贝。

  

2. 深拷贝

如果一个类中涉及到资源的管理,其拷贝构造函数、赋值运算符重载以及析构函数必须要显式给出。一般情况都是按照深拷贝方式提供。
//s2(s1)
string(const string& s)
{
	_str = new char[s._capacity + 1];
	_capacity = s._capacity;
	_size = s._size;

	strcpy(_str, s._str);
}

其实也就是调用拷贝构造函数的时候给新创的对象开辟一块空间。

  

3. string类常用库函数的实现

先确定string类私有的成员变量为

_str指的是开辟的字符数组, _size代表有效字符个数,_capacity代表字符数组中的容量。npos则是无符号整型的最大值。为什么static的的成员可以在类内定义呢?这是因为C++标准规定了const类型的成员可以在类内给一个初始值。

构造函数 、拷贝构造、析构函数

string(const char* str = "")
{
	_size = strlen(str);
	_capacity = _size;
	_str = new char[_capacity + 1];

	strcpy(_str, str);
}

string(const string& s)
{
	_str = new char[s._capacity + 1];
	_capacity = s._capacity;
	_size = s._size;

	strcpy(_str, s._str);
}

~string()
{
	delete[] _str;
	_str = nullptr;
	_capacity = _size = 0;

}

获取size和capacity

size_t size() const
{
	return _size;
}

size_t capacity()const
{
	return _capacity;
}

  

获取c_str

const char* c_str() const
{
	return _str;
}

获取第n个元素(重载 [ ])

这里有可能是const类型的对象和普通的对象调用,而普通对象需要对数据进行修改,所以这里将函数重载一下。

//普通对象
char& operator[](size_t pos)
{
	assert(pos < _size);
	return _str[pos];
}

//const对象
const char& operator[](size_t pos) const
{
	assert(pos < _size);
	return _str[pos];
}

resize和reserve的实现

因为reserve只做扩容操作,所以我们需要判断传入的开辟大小是否大于本身拥有的空间容量

而resize就需要分情况了,如果是是扩容,就先用reserve开辟空间,然后默认填入 '\0' 到开辟的空间中。如果是缩小有效字符长度,直接在该位置填入 '\0' 即可。

void reserve(size_t n)
{
	//c++中扩容只能重新开辟空间拷贝过去
	if (n > _capacity)
	{
		char* temp = new char[n + 1];

		//拷贝过来再删除
		strcpy(temp, _str);
		delete[] _str;
		_str = temp;
		_capacity = n;
	}
			
}

void resize(size_t n, char ch = '\0')
{
	if (n > _size)
	{
		reserve(n);
		for (int i = _size; i > _size; --i)
		{
			_str[i] = ch;
		}

		_size = n;
		_str[_size] = '\0';
	}
	else
	{
		_str[n] = '\0';
		_size = n;
	}
}

迭代器

迭代器一般情况下都是指针,但不全都是。在string类中就是一个char*类型,只不过被我们用typedef包装成了iterator。

begin() 返回字符数组的开头,end() 返回字符数组的尾部。

typedef char* iterator;

iterator begin()
{
	return _str;
}

iterator end()
{
	return _str + _size;
}

   

push_back、append、+=

尾插的话还是经典的先检查再插入数据。

append需要先算好扩容后的空间大小然后扩容,最后strncpy把需要追加的字符串追加到原有的字符串后面就行了。重载+=号服用前面两个函数就够了。

void push_back(char ch)
{
	if (_size == _capacity)
	{
		int newcapacity = _capacity == 0 ? 4 : _capacity * 2;
		reserve(newcapacity);
		_capacity = newcapacity;
	}
	_str[_size] = ch;
	++_size;

	//结尾加上\0
	_str[_size] = '\0';
}

void append(const char* str)
{
	size_t len = strlen(str);
	//如果扩容了两倍也有可能超出
	if (_size + len > _capacity)
	{
		reserve(_size + len + 1);
	}
	strncpy(_str + _size, str, len);
	_size += len;

}

string& operator+=(const char ch)
{
	push_back(ch);
	return *this;
}

string& operator+=(const char* str)
{
	append(str);
	return *this;
}

insert的实现

有两种情况:插入字符和插入字符串。

插入字符需要先检查扩容,然后挪动数据,这里需要注意边界问题。如果我们是把end位置的数据挪动到end+1的位置,那么到0的时候再--,因为这里的pos是一个无符号整形,0就会变成npos,陷入死循环。

解决方法:1、可以把pos强制类型转换为int类型。

// 挪动数据
int end = _size;
while (end >= (int)pos)
{
    _str[end + 1] = _str[end];
	--end;
}

2、循环到1的时候就停下来,那么我们就可以看成是end位置来获取前一个位置的值。

//挪动数据
size_t end = _size + 1;
while (end > pos)
{
	_str[end] = _str[end - 1];
	--end;
}

插入字符串也是同理,因为字符串是有长度的,可能是len个,我们这里也需要关注边界问题,循环里end+len之后还要-1,因为需要排除最后一个。

代码:

string& insert(size_t pos, char ch)
{
	assert(pos < _size);
	//检查容量
	if (_size == _capacity)
	{
		int newcapacity = _capacity == 0 ? 4 : _capacity * 2;
		reserve(newcapacity);
		_capacity = newcapacity;
	}
	//挪动数据
	size_t end = _size + 1;
	while (end > pos)
	{
		_str[end] = _str[end - 1];
		--end;
	}
	_str[pos] = ch;
	++_size;
			
	return *this;
}

string& insert(size_t pos, const char* str)
{
	assert(pos < _size);
	size_t len = strlen(str);
	if (_size + len > _capacity)
	{
		reserve(_size + len);
	}
	size_t end = _size + len ;
	while (end > pos + len - 1)
	{
		_str[end] = _str[end - len];
		--end;
	}
	while(len  > 0)
	{ 
		_str[pos -1] = str[len-1];
		len --;
	}
	return *this;
}

erase

先断言一下pos位置是否在有效范围内。

接下里我们需要判断的是删除的元素个数是否超出了有效字符个数。

当删除的元素大于剩余有效字符长度,那么就可以直接把该位置的元素改为 '\0' ,然后修改_size的数据就行了。

当删除的元素小于剩余有效字符长度,用strcpy将后面的元素拷贝到前面来就行了,因为strcpy是会把 ‘\0’ 也一并拷贝过来的,所以使用起来非常方便。

string& erase(size_t pos, size_t len)
{
	assert(pos < _size);

	if (len == npos || _size - pos <= len)
	{
		_str[pos] = '\0';
		_size = pos;
	}
	else
	{
		strcpy(_str + pos, _str + pos + len);
		_size -= len;
	}

	return *this;
}

find实现

查找分为:查找字符和查找字符串。

查找字符串这里偷个懒,用strstr函数直接查找一下。

因为strstr返回的是指针,所以我们用if判断一下,如果返回的是空指针,那么就返回npos,如果不为空,那么返回找到的ptr - _str 就是位置了。

size_t find(const char ch, size_t pos = 0)const
{
	assert(pos < _size);

	while (pos < _size)
	{
		if (_str[pos] == ch)
		{
			return pos;
		}
		++pos;
	}
	return npos;
}

size_t find(const char* str, size_t pos = 0)const
{
	assert(pos < _size);
	const char* ptr = strstr(_str + pos, str);
	if (ptr == nullptr)
	{
		return npos;
	}
	else
	{
		return ptr - _str;
	}
}

clear、operator<<、operator>>

clear函数作用是清空有效字符。

void clear()
{
	_str[0] = '\0';
	_size = 0;
}

因为操作符第二个参数才是string类对象,所以需要在类外定义。

operator<<就是一个循环输出所有字符。

operator>>由于我们不知道输入多少内容,开少了需要频繁扩容,开大了浪费空间。

我们可以设置一个有128给元素的数组buff,用get函数来获取输入的字符,每次填入一个字符到数组中,每次满了128就将数组添加到string类对象的字符数组中,并将buff数组重置。最后一次如果不满128个是不会追加到string类对象的字符数组中的,我们手动追加一下。因为每次输入的东西都是要覆盖前一次的,所以我们每次输入前都需要清空一下原来的数据,所以我们调用一下clear函数。

ostream& operator<<(ostream& out, const string& s)
{
	for (int i = 0; i < s.size(); ++i)
	{
		out << s[i];
	}

	return out;
}

istream& operator>>(istream& in, string& s)
{
	//先清理s
	s.clear();
		
	char buff[128] = { '\0' };
	size_t i = 0;
	char ch = in.get();
	while (ch != ' ' && ch != '\n')
	{
		//满了
		if (i == 127)
		{
			s += buff;
			i = 0;
		}

		buff[i++] = ch;
		ch = in.get();
	}

	//剩下不满一组的
	if (i > 0)
	{
		buff[i] = '\0';
		s += buff;

	}
	return in;
}

4、写时拷贝(了解)

写时拷贝就是一种拖延症,是在浅拷贝的基础之上增加了引用计数的方式来实现的。
引用计数:用来记录资源使用者的个数。在构造时,将资源的计数给成1,每增加一个对象使用该资源,就给计数增加1,当某个对象被销毁时,先给该计数减1,然后再检查是否需要释放资源,如果计数为1,说明该对象时资源的最后一个使用者,将该资源释放;否则就不能释放,因为还有其他对象在使用该资源。

参考文章:

C++ STL string的Copy-On-Write技术 | 酷 壳 - CoolShell
C++的std::string的“读时也拷贝”技术! | 酷 壳 - CoolShell

评论 17
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

青衫哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值