错误示范:误用===进行字符串比较
string str( "Type1");
if(str.data() == "Type1")
{
}
正确示范
if(strcmp(str.data(), "Type1") == 0)
{
}
错误原因分析:
内存存储区简单可分为
栈:由编译器自动分配和释放,存放函数的参数值、局部变量的值等
堆:由 malloc 等分配的内存块,和堆是十分相似的,不过它是用 free 来结束自己的生命的,任何在函数内部声明的非static变量,其变量地址本身在栈区
自由存储区:C++ 中通过 new 和 delete 动态分配和释放对象的抽象概念,C++ 中通过 new 和 delete 动态分配和释放对象的抽象概念,自由存储区默认位于堆上,也可以通过重载操作符,改用其他内存来实现自由存储。
全局/静态存储区:全局变量和静态变量的存储是放在一起的,初始化的全局变量和静态变量在一块区域,未初始化的全局变量和未初始化的静态变量在相邻的另一块区域。程序结束后由系统释放。
文字常量区:常量字符串就是放在这里的。 程序结束后由系统释放
静态存储区和文字常量区在程序运行期间会一直存在,不会释放,且变量常量在其中只有一份拷贝,不会出现相同的变量和常量的不同拷贝。
==比较的2边的值,故其实比较的是指针地址是否相同,"Type1"是位于文字常量区,地址固定,string 本质其实为char数组,较小时位于栈区,较大时位于堆区,故地址不想当
const char * pstr1 = "str123";
char * pstr2 = "str123";
string str1 = "str123";
string str2 = "str123";
char cStr1[] = "str123";
char cStr2[] = "str123";
const char * pstr3 = str1.data();
cout << (pstr1 == "str123") << endl;
cout << (pstr1 == pstr2) << endl;
//直接使用str1比较,重载string的==
cout << (cStr1 == str1) << endl;
cout << (str1.data() == str2.data()) << endl;
cout << (pstr1 == cStr1) << endl;
cout << (cStr1 == cStr2) << endl;
cout << (pstr1 == pstr3) << endl;
printf("pstr1:addr:%p,pstr2:addr:%p,str.data:addr:%p,str123:addr:%p,cStr1:addr:%p,cStr2:addr:%p\n",\
pstr1, pstr2, str1.data(), "str123", cStr1, cStr2);
/*输出结果
1
1
1
0
0
0
0
pstr1:addr:00715B9C,pstr2:addr:00715B9C,str.data:addr:012FFD2C,str123:addr:00715B9C,cStr1:addr:012FFCF4,cStr2:addr:012FFCE4
*/
同理,由于内存分配的原因,以下2种函数写法,一种正确一种不正确:
//正确
char *returnStr()
{
char *p="hello world!";
return p;
}
//错误
char *returnStr()
{
char p[]="hello world!";
return p;
}
"hello world!"是一个字符串常量,存放在静态数据区,
把该字符串常量存放的静态数据区的首地址赋值给了指针,函数退出时,该字符串常量所在内存不会被回收,故能够通过指针顺利无误的访问。
把字符串常量赋值给了一个局部变量(char []型数组),该局部变量存放在栈中,函数退出时,栈上的内存被释放。
std::wstring和std::string的.data()和.c_str()的区别
c_str() 方法返回一个以 \0 结尾的 C 风格字符串,但不会提前截断
data() 方法返回的是一个指向字符串数据的指针,但这个指针会遇到第一个 \0 字符就终止
C++字符编码误区
在cpp文件编码格式为utf-8 withbom
代码中存在编码
std::string testStr = "day这是一个测试";
testStr 是否为utf8编码格式?
答案是和平台以及编码器有关,即使你C++ 源文件是以 UTF-8 with BOM 编码保存的,编译器可能仍然会将字符串字面量解释为本地编码,例如windows该字符串为GBK编码
要保证字符串为UTF8编码,可在字符串前面加u8指定
std::string utf8Str = u8"day这是一个测试";
下面函数用于校验编码是否为utf8
bool isValidUTF8(const std::string& str) {
int bytes = 0;
unsigned char byte;
for (size_t i = 0; i < str.size(); ++i) {
byte = static_cast<unsigned char>(str[i]);
if (bytes == 0) {
if ((byte & 0x80) == 0x00) {
// 1-byte character: 0xxxxxxx
continue;
} else if ((byte & 0xE0) == 0xC0) {
// 2-byte character: 110xxxxx
bytes = 1;
} else if ((byte & 0xF0) == 0xE0) {
// 3-byte character: 1110xxxx
bytes = 2;
} else if ((byte & 0xF8) == 0xF0) {
// 4-byte character: 11110xxx
bytes = 3;
} else {
// Invalid UTF-8 byte
return false;
}
} else {
// Continuation byte: 10xxxxxx
if ((byte & 0xC0) != 0x80) {
return false;
}
--bytes;
}
}
return bytes == 0;
}
UTF8编码转unicode
支持到c++17
std::wstring_convert<std::codecvt_utf8<wchar_t>> converter;
std::wstring wide_string = converter.from_bytes(utf8_string);
QString使用的常犯误区
QString sourceStr = "你好";
QByteArray byteArray = sourceStr.toLocal8Bit();
const char* data = byteArray.data(); // 安全,因为 byteArray 的生命周期覆盖了 data 的使用
const char* data = sourceStr.toLocal8Bit().data(); // 风险:QByteArray 是临时对象,生命周期结束后 data 指向无效内存 延迟使用会有风险
printf("%s\n", data); // 可能导致崩溃或未定义行为
pFunc(sourceStr.toLocal8Bit().data()); //安全,在这种情况下,QByteArray 的生命周期在函数调用结束之前不会结束,因此 data() 返回的指针在函数调用期间是有效的