C++字符串、字符数组_c++ char数组比较-优快云博客

本文链接：https://blog.youkuaiyun.com/yiwuxiao3767/article/details/121776404

本文探讨了在C++中使用`==`和`strcmp`进行字符串比较的区别，解释了错误地使用`==`可能导致的问题。文章详细阐述了内存的栈、堆、全局/静态存储区和文字常量区，以及它们对字符串常量和变量的影响。通过实例展示了不同类型的字符串变量在内存中的位置和生命周期，强调了理解内存分配在编程中的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

错误示范：误用===进行字符串比较

string str( "Type1");
if(str.data() == "Type1")
{
}

正确示范

if(strcmp(str.data(), "Type1") == 0)
{
}

错误原因分析:
内存存储区简单可分为
栈:由编译器自动分配和释放，存放函数的参数值、局部变量的值等
堆:由 malloc 等分配的内存块，和堆是十分相似的，不过它是用 free 来结束自己的生命的，任何在函数内部声明的非static变量，其变量地址本身在栈区
自由存储区:C++ 中通过 new 和 delete 动态分配和释放对象的抽象概念,C++ 中通过 new 和 delete 动态分配和释放对象的抽象概念,自由存储区默认位于堆上,也可以通过重载操作符，改用其他内存来实现自由存储。
全局/静态存储区：全局变量和静态变量的存储是放在一起的，初始化的全局变量和静态变量在一块区域，未初始化的全局变量和未初始化的静态变量在相邻的另一块区域。程序结束后由系统释放。
文字常量区：常量字符串就是放在这里的。程序结束后由系统释放
静态存储区和文字常量区在程序运行期间会一直存在，不会释放，且变量常量在其中只有一份拷贝，不会出现相同的变量和常量的不同拷贝。

==比较的2边的值，故其实比较的是指针地址是否相同，"Type1"是位于文字常量区，地址固定，string 本质其实为char数组，较小时位于栈区，较大时位于堆区，故地址不想当

	const char * pstr1 = "str123";
	char * pstr2 = "str123";
	string str1 = "str123";
	string str2 = "str123";
	char cStr1[] = "str123";
	char cStr2[] = "str123";
	const char * pstr3 = str1.data();
	cout << (pstr1 == "str123") << endl;
	cout << (pstr1 == pstr2) << endl;
	//直接使用str1比较，重载string的==
	cout << (cStr1 == str1) << endl;
	cout << (str1.data() == str2.data()) << endl;
	cout << (pstr1 == cStr1) << endl;
	cout << (cStr1 == cStr2) << endl;
	cout << (pstr1 == pstr3) << endl;
	printf("pstr1:addr:%p,pstr2:addr:%p,str.data:addr:%p,str123:addr:%p,cStr1:addr:%p,cStr2:addr:%p\n",\
		pstr1, pstr2, str1.data(), "str123", cStr1, cStr2);
/*输出结果
1
1
1
0
0
0
0
pstr1:addr:00715B9C,pstr2:addr:00715B9C,str.data:addr:012FFD2C,str123:addr:00715B9C,cStr1:addr:012FFCF4,cStr2:addr:012FFCE4
*/

同理，由于内存分配的原因，以下2种函数写法，一种正确一种不正确：

//正确
char *returnStr()
{
	char *p="hello world!";
	return p;
}
//错误
char *returnStr()
{
	char p[]="hello world!";
	return p;
}

"hello world!"是一个字符串常量，存放在静态数据区，
把该字符串常量存放的静态数据区的首地址赋值给了指针，函数退出时，该字符串常量所在内存不会被回收，故能够通过指针顺利无误的访问。
把字符串常量赋值给了一个局部变量(char []型数组)，该局部变量存放在栈中，函数退出时，栈上的内存被释放。
std::wstring和std::string的.data()和.c_str()的区别
c_str() 方法返回一个以 \0 结尾的 C 风格字符串，但不会提前截断
data() 方法返回的是一个指向字符串数据的指针，但这个指针会遇到第一个 \0 字符就终止

C++字符编码误区

在cpp文件编码格式为utf-8 withbom
代码中存在编码

std::string testStr = "day这是一个测试";

testStr 是否为utf8编码格式？
答案是和平台以及编码器有关，即使你C++ 源文件是以 UTF-8 with BOM 编码保存的，编译器可能仍然会将字符串字面量解释为本地编码，例如windows该字符串为GBK编码
要保证字符串为UTF8编码，可在字符串前面加u8指定

std::string utf8Str = u8"day这是一个测试";

下面函数用于校验编码是否为utf8

bool isValidUTF8(const std::string& str) {
    int bytes = 0;
    unsigned char byte;
    for (size_t i = 0; i < str.size(); ++i) {
        byte = static_cast<unsigned char>(str[i]);
        if (bytes == 0) {
            if ((byte & 0x80) == 0x00) {
                // 1-byte character: 0xxxxxxx
                continue;
            } else if ((byte & 0xE0) == 0xC0) {
                // 2-byte character: 110xxxxx
                bytes = 1;
            } else if ((byte & 0xF0) == 0xE0) {
                // 3-byte character: 1110xxxx
                bytes = 2;
            } else if ((byte & 0xF8) == 0xF0) {
                // 4-byte character: 11110xxx
                bytes = 3;
            } else {
                // Invalid UTF-8 byte
                return false;
            }
        } else {
            // Continuation byte: 10xxxxxx
            if ((byte & 0xC0) != 0x80) {
                return false;
            }
            --bytes;
        }
    }
    return bytes == 0;
}

UTF8编码转unicode
支持到c++17

std::wstring_convert<std::codecvt_utf8<wchar_t>> converter;
std::wstring wide_string = converter.from_bytes(utf8_string);

QString使用的常犯误区

QString sourceStr = "你好";
QByteArray byteArray = sourceStr.toLocal8Bit();
const char* data = byteArray.data(); // 安全，因为 byteArray 的生命周期覆盖了 data 的使用

const char* data = sourceStr.toLocal8Bit().data(); // 风险：QByteArray 是临时对象，生命周期结束后 data 指向无效内存 延迟使用会有风险
printf("%s\n", data); // 可能导致崩溃或未定义行为

pFunc(sourceStr.toLocal8Bit().data()); //安全，在这种情况下，QByteArray 的生命周期在函数调用结束之前不会结束，因此 data() 返回的指针在函数调用期间是有效的