Bits, Bytes and Integer 1
课程视频地址:https://www.bilibili.com/video/BV1iW411d7hd?p=2&vd_source=4a12b6c8bd17a63bf93178868a44913c
从集合操作的角度来理解与、或、非、异或操作
我们已经很熟悉两个数的二进制表示按位进行与、或、非、异或操作如何产生新的数,课程中展现了一种新的方式来让我们理解这种位操作,考虑如下的两个数的二进制表示(考虑无符号数):
(
21
)
10
=
(
10101
)
2
(
24
)
10
=
(
11000
)
2
(21)_{10} =(10101)_2\ \ \ \ (24)_{10} = (11000)_2
(21)10=(10101)2 (24)10=(11000)2
我们将其二进制表示写成一维数组的形式,并将为1的位的下标取出,构成一个集合,即:
1 | 0 | 1 | 0 | 1 | 集合 |
---|---|---|---|---|---|
4 | 3 | 2 | 1 | 0 | 0,2,4 |
1 | 1 | 0 | 0 | 0 | 集合 |
---|---|---|---|---|---|
4 | 3 | 2 | 1 | 0 | 3,4 |
一个显而易见的事实是,将两个数各自所对应的集合中的元素分别取出来,作为2的幂次,再进行求和就可以得到这两个数各自的值,即
21 = 2 0 + 2 2 + 2 4 24 = 2 3 + 2 4 21 = 2^0+2^2+2^4\ \ \ 24=2^3+2^4 21=20+22+24 24=23+24
而更有趣的地方在于,如果我们将21与24作按位与操作,容易发现答案即为 ( 16 ) 10 = ( 10000 ) 2 (16)_{10}=(10000)_2 (16)10=(10000)2,而这个结果正好与我们先将集合 { 0 , 2 , 4 } \left\{ 0,2,4 \right\} {0,2,4}与集合 { 3 , 4 } \left\{ 3,4 \right\} {3,4}作交运算,再将得到的集合 { 4 } \left\{ 4 \right\} {4}中的元素分别作为2的幂次,再求和得到的结果相等,因此按位与操作其实在某种意义上与交运算是等价的。同理,读者可以自行尝试,在上面所讨论的意义下,按位或运算对应的是并运算,非操作对应的是取补集操作,异或对应的是取两个集合的对称差操作。
整数在计算机中的两种表示方式及转换
记号约定: x x x为某个整数的二进制表示, x i x_i xi为 x x x的第 i i i位,并且我们假设 x x x的总位数为 w w w。
我们人习惯操作的数是十进制的,而机器习惯操作的数是二进制的,当我们在讨论整数在计算机中的表示方法的时候,事实上我们是在问这样的一个问题:给定一个十进制的数,我们希望它在计算机中有唯一的二进制表示,并且能够找到一个对应法则(函数),来帮助我们确定这个二进制数是多少。而由于我们要求的这样的一个函数实际上是一个双射,因此,这个问题的等价问法是:给定一个二进制表示,确定一个双射,使得能够将这个二进制表示映成一个十进制数。
为了讨论的简便,我们采取问题的后一种问法,以下介绍两种不同的整数在计算机中的表示方法:
无符号整数的表示方法
我们确定的双射是:
B 2 U ( x ) = ∑ i = 0 w − 1 x i ⋅ 2 i B2U(x) = \sum_{i=0}^{w-1}x_i·2^i B2U(x)=i=0∑w−1xi⋅2i
容易看到,对于给定的 w w w, B 2 U B2U B2U的值域为 { 0 , 1 , 2 , . . . , 2 w − 1 } \left\{ 0,1,2,...,2^w-1 \right\} {0,1,2,...,2w−1},这个函数是恒大于等于0的。
有符号整数的表示方法——2的补码表示
我们确定的双射是:
B
2
T
(
x
)
=
−
x
w
−
1
⋅
2
w
−
1
+
∑
i
=
0
w
−
2
x
i
⋅
2
i
B2T(x)=-x_{w-1}·2^{w-1}+\sum_{i=0}^{w-2}x_i·2^i
B2T(x)=−xw−1⋅2w−1+i=0∑w−2xi⋅2i
如果把
B
2
T
B2T
B2T看作是系数待定的2的多项式,并将2的次幂前的系数视为权重,那么我们会发现负权重只会出现在最高位上,因此
B
2
T
B2T
B2T的值域为
{
−
2
w
−
1
,
−
2
w
−
1
+
1
,
.
.
.
,
2
w
−
1
−
1
}
\left\{ -2^{w-1},-2^{w-1}+1,...,2^{w-1}-1 \right\}
{−2w−1,−2w−1+1,...,2w−1−1}。
无符号整数表示法与有符号整数表示法的转换
我们已经知道了,这两种表示法的本质区别其实只是在于选取的映射不同,而由于两种表示方法与二进制表示之间都是双射,我们当然可以建立这两种表示方法之间的双射,这种映射的规则也很简单(为方便起见,我们只展示从有符号整数到无符号整数的转化):
T
2
U
(
B
2
T
(
x
)
)
=
{
B
2
T
(
x
)
0
≤
B
2
T
(
x
)
≤
2
w
−
1
−
1
B
2
T
(
x
)
+
2
w
−
1
+
1
−
2
w
−
1
≤
B
2
T
(
x
)
≤
−
1
T2U(B2T(x))= \left\{ \begin{aligned} &B2T(x) \ \ \ \ &0\leq B2T(x)\leq2^{w-1}-1\\ &B2T(x) + 2^{w-1} + 1 \ \ \ \ &-2^{w-1}\leq B2T(x)\leq-1\\ \end{aligned} \right.
T2U(B2T(x))={B2T(x) B2T(x)+2w−1+1 0≤B2T(x)≤2w−1−1−2w−1≤B2T(x)≤−1
当然上面的表述看起来比较抽象,实际上这件事情可以考虑下图:
也就是将2的补码表示的负数部分旋转180°后拼接到正数部分,例如 − 1 -1 −1就被映射到原来的 2 w − 1 − 1 2^{w-1}-1 2w−1−1的上面一个,即为 2 w − 1 2^{w-1} 2w−1。
接下来我们看一些例子:
例1:
运行如下代码:
#include <stdio.h>
int main()
{
int a = -1;
unsigned int b = 0U; //定义b为无符号类型的0
if(a > b)
{
printf("a is bigger than b"\n);
}
else if (b > a)
{
printf("b is bigger than a"\n);
}
return 0;
}
你可能会感到惊奇的是,这个函数返回的结果居然是
a is bigger than b
事实上,计算机在对两个有符号数进行运算时,会直接运算,当如果两个数中出现了至少一个无符号数,那么计算机会将这两个数都转化成无符号数来进行运算,知道了这个,那么根据我们前面的理论进行分析,由于我们的机器是64位的:
查询可知int类型占4bytes,因此 − 1 -1 −1被转化为 2 31 2^{31} 231,从而比0大。
例2:
观察如下写法:
#include <stdio.h>
void f(int i)
{
...
}
int main()
{
unsigned int i;
int n = 10;
for(i = n-1; i>=0; --i)
f(i);
}
这个程序这样写是错误的,这是因为i>=0这个条件是恒成立的(为什么?),因此循环永远不会停止。
例3:
观察如下写法:
#include <stdio.h>
void f(int i)
{
...
}
int main()
{
int i;
int n = 10;
for(i = n-1; i - sizeof(char)>=0; --i)
f(i);
}
这种写法也是有问题的,这是因为sizeof返回的是一个无符号型的整数,与i进行运算后得到的结果是一个无符号类型的,最终循环也不会停止。
无符号整数与有符号整数位数的扩张
我们希望将一个整数从 k k k位扩张成 k + p ( p ≥ 0 ) k+p\ (p\geq0) k+p (p≥0)位而不改变它的大小。
无符号整数
这只需要在原来的数前面填充0即可。
有符号整数
这需要在原来的数前面将扩张的位数全部填上与符号位相同的数,例如:
1011 -> 11111011
0101 -> 00000101
整数位数的缩减
一般而言,我们都采用直接扔掉最高位的情况,但此时自己要清楚可能出现的情况:
无符号整数
这只会有可能导致整数的缩小,但是并不会导致符号的改变。
有符号整数
1110101 -> 10101 //结果不变
这其实与我们有符号整数的扩张是一个逆过程,结果自然是不变的。
10110 -> 0110
0110 -> 110
从负数变成了正数,从正数变成负数都是有可能的。
以上即为本次博客的全部内容,写于2023/1/10,如果读者发现有什么问题或者有什么疑问,欢迎在评论区留言,博主看到会及时回复或作修改,非常感谢!