前言
以下是我发现这个问题的过程,如果仅需要查看问题的原理,请跳过该部分
在我们使用C++ string时,可能会有这样的写法
#include <iostream>
#include <string>
using namespace std;
int main()
{
string s("abcdef");
if (s.find("g") == string::npos)
{
cout << "没找到!" << endl;
}
return 0;
}
运行结果如下:
那么,这个string::npos究竟是什么呢?
依据资料显示如下:
我们可以从以上内容中得到以下信息:
string::npos 是
- string 类中的一个静态常量成员
- 是 size_t 类型的最大值
- 意义是 没有匹配项 或者 已经达到字符串末尾
- 常量定义为 -1 ,由于 size_t 是无符号整型,所以它也可表示 size_t 最大值。
因此,我们可以对 string::npos 的值进行输出
#include <iostream>
#include <string>
using namespace std;
int main()
{
cout << string::npos << endl;
return 0;
}
结果如下:
由此,我们得到了第一个数字 : 18446744073709551615
然而,依据定义, string::npos 的值应该是常量值 -1
那么,这两个值是否相等呢?
我们可以写出以下代码:
#include <iostream>
using namespace std;
int main()
{
if (18446744073709551615 == -1)
{
cout << "equal!" << endl;
}
return 0;
}
而结果恰恰证明了我们的猜想,这两个看似毫不相干的值居然是相等的。
那么,这是为什么呢?
原理
18446744073709551615的本质
在上面的关于 string::npos 的定义中,我们可以知道, string::npos 的类型为 size_t
由于不同厂商对 size_t 类型的实现可能不一样,因此,我们需要先知道 size_t 的本质究竟是什么类型。
我们可以写出以下代码:
#include <iostream>
using namespace std;
int main()
{
cout << typeid(size_t).name() << endl;
return 0;
}
在我的VS编译器中,它返回了这样的结果,告诉我们 size_t 的类型为 unsigned __int64 ,即最多能表示 2^64 个整数的无符号整型值,即 unsigned long long
我们可以通过以下代码验证:
#include <iostream>
#include <limits>
using namespace std;
int main()
{
cout << ULLONG_MAX << endl;//ULLONG 即unsigned long long
return 0;
}
输出结果正是这串熟悉的数字: 18446744073709551615
由此,我们可以确定这串数字正是一个unsigned long long类型的数,即可确定它在内存中的存储
十六进制:
ff ff ff ff ff ff ff ff
二进制:
1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111
-1的本质
那么 -1 在内存中如何存储呢?
既然是一个负数,我们就应该先看其正数的原码(1的原码)
十六进制:
00 00 00 00 00 00 00 01
二进制:
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0001
但-1实际上是负数,因此对上面的内容求反码(取反)
十六进制:
ff ff ff ff ff ff ff fe
二进制:
1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1110
最后我们得到 -1 的补码
十六进制:
ff ff ff ff ff ff ff ff
二进制:
1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111
最终的结果
此时我们发现, -1 和 18446744073709551615 在内存中的存储居然一模一样。
现在它们的不同只剩下它们的类型不同,一个是有符号,一个是无符号。
然而,在 C++ 比较大小时,编译器会将有符号值转换为无符号值,然后进行比较,最后就得到了这个看似很荒谬的结果。
总结
此时,我们可以发现 -1 和 18446744073709551615 这两个数相等的本质其实是它们在内存中存储的数据相同,而在 C++ 比较大小时,编译器将有符号值转换成了无符号值,最终导致了这两个值相等。
写在最后
其实,18446744073709551615 这个数字也可能在 vector容器的size()对象中出现,譬如以下代码:
#include <iostream>
#include <vector>
using namespace std;
int main()
{
vector<int> v;
cout << v.size() - 1 << endl;
return 0;
}
本质上也是vector容器目前没有元素 v.size() == 0 所造成的,它的返回值同样是 size_t 类型的,此时对其进行 -1 操作,也会发生上面的现象,将 -1 按照无符号值存入了内存,成为了unsigned long long的最大值,即 2^64 -1
如果你有更好的想法与思路,欢迎在评论区友好讨论,希望我的这篇文章能够抛砖引玉。感谢你的阅读。