LLM大模型中的基础数学工具——向量空间与几何

本文链接：https://blog.youkuaiyun.com/pzccool/article/details/147326261

Q8：推导向量投影 $proj_{v}u = \frac{u \cdot v}{\|v\|^{2}}v$ 的几何解释

向量投影到底是啥

咱先说向量，向量这玩意儿就像是在空间里的小箭头，它有方向，还有长度。那向量投影呢，打个比方，就好像在阳光底下，一个向量在另一个向量方向上投下的影子。

具体来说哈，假设有两个向量，一个叫 $\vec{u}$ ，另一个叫 $\vec{v}$ 。 $\vec{u}$ 在 $\vec{v}$ 上的投影 $proj_{\vec{v}}\vec{u}$ ，它其实是一个和 $\vec{v}$ 在同一条直线上的向量。这个投影向量能表示出 $\vec{u}$ 在 $\vec{v}$ 方向上的那部分分量。

要是把张量的概念类比过来，就像单独的一个数，比如 5，它没有方向，这就是 0 - 阶张量，也就是我们平常说的标量。而像 $\vec{a}=(2, 3)$ 这样，既有方向又有大小的，它就是 1 - 阶张量，也就是向量。再比如一个像 $\begin{bmatrix}1 & 2 \\ 3 & 4\end{bmatrix}$ 这样的表格形式的数据，它就是 2 - 阶张量，也就是矩阵。更高阶的张量能用来表示更复杂的多维数据呢。向量投影就是在处理向量这种 1 - 阶张量时的一种操作。

几何解释是怎么来的

公式 $proj_{\vec{v}}\vec{u}=\frac{\vec{u}\cdot\vec{v}}{\|\vec{v}\|^{2}}\vec{v}$ 里面的 $\vec{u}\cdot\vec{v}$ 它叫向量点积，这个点积能反映出来 $\vec{u}$ 和 $\vec{v}$ 这两个向量的方向以及长度之间的关联情况。 $\|\vec{v}\|^{2}$ 是向量 $\vec{v}$ 长度的平方。然后 $\frac{\vec{u}\cdot\vec{v}}{\|\vec{v}\|^{2}}$ 算出来是一个数，这个数就决定了投影向量的长度。最后再把这个数乘上向量 $\vec{v}$ ，就得到了我们要求的投影向量。

从几何的角度来推导一下。我们先假设 $\vec{u}$ 在 $\vec{v}$ 上的投影向量是 $k\vec{v}$ （这里的k是一个标量）。因为 $\vec{u}-k\vec{v}$ 和 $\vec{v}$ 是垂直的（这是投影的一个性质），而根据向量垂直的性质，它们的点积为 0，也就是 $(\vec{u}-k\vec{v})\cdot\vec{v}=0$ 。

我们把这个式子展开来看， $\vec{u}\cdot\vec{v}-k\vec{v}\cdot\vec{v}=0$ 。再进一步变形，就能得到 $k = \frac{\vec{u}\cdot\vec{v}}{\vec{v}\cdot\vec{v}}=\frac{\vec{u}\cdot\vec{v}}{\|\vec{v}\|^{2}}$ 。所以投影向量就是 $k\vec{v}=\frac{\vec{u}\cdot\vec{v}}{\|\vec{v}\|^{2}}\vec{v}$ 。

在 LLM 中的使用

在大语言模型（LLM）里，词向量是用来表示文本语义的。向量投影在这里面可就派上大用场，它可以用来衡量一个词向量和某个特定语义方向的相关性。

比如说在文本生成这个任务中，模型生成了一个词向量，我们就可以把这个生成的词向量投影到上下文的语义向量上。通过这个投影操作，我们就能判断这个生成的词是不是符合上下文的语义方向。要是投影向量的长度比较长，那就说明这个生成的词和上下文的语义相关性比较高，这样就能帮助模型生成更符合语境的文本。

代码示例

import numpy as np

# 定义向量 u 和 v
u = np.array([1, 2])
v = np.array([3, 4])

# 计算投影向量
scalar = np.dot(u, v) / np.linalg.norm(v) ** 2
proj = scalar * v

print("投影向量为:", proj)

在这段代码里，我们先定义了两个向量 $\vec{u}$ 和 $\vec{v}$ 。然后通过计算 $\vec{u}$ 和 $\vec{v}$ 的点积，再除以 $\vec{v}$ 长度的平方，得到一个标量。最后用这个标量乘以 $\vec{v}$ ，就得到了 $\vec{u}$ 在 $\vec{v}$ 上的投影向量，并且把它打印出来。

总结

向量投影这个概念，就是处理向量之间关系的一个重要的东西。从几何的角度去理解它的原理，还是比较清晰的。在大语言模型里面，它对于文本语义的处理有着很重要的作用。通过代码示例，我们也能很方便地在实际应用中计算向量投影，从而帮助模型生成更贴合语义的内容。

Q9：证明 Gram 矩阵半正定性 $(G_{ij}=x_{i}\cdot x_{j})$

Gram 矩阵是啥

Gram 矩阵呢，它是由一组向量生成的。比如说我们有一组向量，分别叫做 $\vec{x}_1,\vec{x}_2,\cdots,\vec{x}_n$ 。Gram 矩阵G是一个 $n\times n$ 的矩阵，它里面的元素 $G_{ij}$ 就等于向量 $\vec{x}_i$ 和 $\vec{x}_j$ 的点积，也就是 $G_{ij}=\vec{x}_i\cdot\vec{x}_j$ 。说白了，就是把这组向量两两之间做一下点积，然后把这些点积的值放在对应的位置上，就构成了 Gram 矩阵。

怎么证明半正定性

这里说的半正定性就是对于任意一个不是零向量的 $\vec{y}$ ，都有 $\vec{y}^T G\vec{y}\geq0$ 。那我们来一步一步证明一下。

首先，把 $\vec{y}^T G\vec{y}$ 展开。 $\vec{y}^T G\vec{y}=\sum_{i = 1}^{n}\sum_{j = 1}^{n}y_iy_jG_{ij}=\sum_{i = 1}^{n}\sum_{j = 1}^{n}y_iy_j(\vec{x}_i\cdot\vec{x}_j)$ 。

然后根据向量点积的运算规则，我们可以把它进一步变形为 $\left(\sum_{i = 1}^{n}y_i\vec{x}_i\right)\cdot\left(\sum_{i = 1}^{n}y_i\vec{x}_i\right)$ 。这其实就是一个新的向量 $\sum_{i = 1}^{n}y_i\vec{x}_i$ 和它自身的点积。而一个向量和它自己的点积，就等于这个向量模长的平方，也就是 $\left\|\sum_{i = 1}^{n}y_i\vec{x}_i\right\|^2$ 。

因为向量的模长肯定是大于等于 0 的，所以它的平方也一定是大于等于 0 的，也就是 $\left\|\sum_{i = 1}^{n}y_i\vec{x}_i\right\|^2\geq0$ 。这就证明了 $\vec{y}^T G\vec{y}\geq0$ ，所以 Gram 矩阵是半正定的。

在 LLM 中的使用

在大语言模型处理高维词向量的时候，Gram 矩阵可就发挥大作用。它可以用来衡量不同词向量之间的内积关系。

比如说，我们要计算两个词向量之间的相似度或者距离，这时候 Gram 矩阵的半正定性就很重要。它能保证我们算出来的这些度量结果是合理的，而且是非负的。再比如说在基于核函数的文本分类任务中，Gram 矩阵的半正定性能够确保核函数是有效的，这样模型就能更准确地对文本进行分类。

代码示例

import numpy as np

# 定义向量 x1 和 x2
x1 = np.array([1, 2])
x2 = np.array([3, 4])

# 构建Gram矩阵
G = np.array([[np.dot(x1, x1), np.dot(x1, x2)], [np.dot(x2, x1), np.dot(x2, x2)]])

# 定义一个非零向量 y
y = np.array([1, 1])

# 计算 y^T G y
result = np.dot(y, np.dot(G, y))

print("y^T G y 的值为:", result)
print("Gram矩阵是否半正定:", result >= 0)

在这段代码里，我们先定义了两个向量 $\vec{x}_1$ 和 $\vec{x}_2$ ，然后通过计算它们之间的点积，构建了一个 Gram 矩阵G。接着我们又定义了一个非零向量 $\vec{y}$ ，通过计算 $\vec{y}^T G\vec{y}$ 的值，来验证 Gram 矩阵是不是半正定的。最后把计算结果打印出来，就能看到 Gram 矩阵确实满足半正定性啦。

总结

Gram 矩阵的半正定性证明主要是基于向量点积和模长的性质。在大语言模型中，它为词向量之间的度量提供了一个很重要的理论基础，能够保证模型在处理文本相似度、分类等任务的时候更加准确。通过代码示例，我们也可以很直观地验证 Gram 矩阵的半正定性，这对于我们理解和应用这个概念是很有帮助的。

Q10：分析超平面 $H = \{x|w^{T}x + b = 0\}$ 的距离公式 $d = \frac{|w^{T}x_{0}+b|}{\|w\|}$

超平面和距离公式是啥

超平面是在n维空间里的一个 $n - 1$ 维的子空间。比如说在二维空间里，超平面其实就是一条直线；在三维空间里呢，超平面就是一个平面。

给定一个超平面H，它可以用方程 $\vec{w}^T\vec{x}+b = 0$ 来表示。这里面的 $\vec{w}$ 是超平面的法向量，啥叫法向量呢，就是和超平面垂直的向量。b是一个常数。

而距离公式 $d=\frac{|\vec{w}^T\vec{x}_0 + b|}{\|\vec{w}\|}$ ，这个公式是用来计算空间里的一个点 $\vec{x}_0$ 到超平面H的距离的。

距离公式怎么分析

我们从几何的角度来推导一下这个公式。假设超平面上有一个点 $\vec{x}$ ，因为这个点在超平面上，所以它满足 $\vec{w}^T\vec{x}+b = 0$ 。

点 $\vec{x}_0$ 到超平面上点 $\vec{x}$ 的向量就是 $\vec{x}_0-\vec{x}$ 。而点 $\vec{x}_0$ 到超平面的距离d，其实就是向量 $\vec{x}_0-\vec{x}$ 在法向量 $\vec{w}$ 方向上投影的绝对值。

根据向量投影的知识，投影长度是 $\frac{|\vec{w}\cdot(\vec{x}_0 - \vec{x})|}{\|\vec{w}\|}$ 。

又因为 $\vec{w}^T\vec{x}+b = 0$ ，也就是 $\vec{w}\cdot\vec{x}=-b$ ，那么 $\vec{w}\cdot(\vec{x}_0 - \vec{x})=\vec{w}\cdot\vec{x}_0-\vec{w}\cdot\vec{x}=\vec{w}\cdot\vec{x}_0 + b$ 。

所以呢，点 $\vec{x}_0$ 到超平面的距离 $d=\frac{|\vec{w}^T\vec{x}_0 + b|}{\|\vec{w}\|}$ 。

在 LLM 中的使用

在大语言模型的分类任务里，超平面可以作为不同类别之间的一个决策边界。

比如说在情感分析这个任务中，我们可以把积极情感和消极情感看作是两个不同的类别。通过计算文本向量到超平面的距离，我们就能判断这个文本属于哪个类别。如果一个文本向量到代表积极情感的超平面的距离比较近，那我们就可以判断这个文本具有积极情感。

再比如说在文本分类的其他场景中，超平面也能帮助我们把不同主题、不同类型的文本区分开来，从而让模型能够更准确地对文本进行分类。

代码示例

import numpy as np

# 定义超平面的法向量 w 和标量 b
w = np.array([1, 1])
b = -2

# 定义点 x0
x0 = np.array([3, 3])

# 计算点 x0 到超平面的距离
distance = np.abs(np.dot(w, x0) + b) / np.linalg.norm(w)

print("点 x0 到超平面的距离为:", distance)

在这段代码里，我们先定义了超平面的法向量 $\vec{w}$ 和常数b，然后又定义了一个点 $\vec{x}_0$ 。接着通过计算 $\vec{w}$ 和 $\vec{x}_0$ 的点积，再加上b，取绝对值后除以 $\vec{w}$ 的长度，就得到了点 $\vec{x}_0$ 到超平面的距离，最后把这个距离打印出来。

总结

超平面的距离公式是通过向量投影推导出来的。在大语言模型的分类任务中，它是一个非常重要的工具。通过计算文本向量到超平面的距离，我们可以实现对文本的准确分类。代码示例展示了如何计算点到超平面的距离，这对于我们在实际应用中使用这个公式是很有帮助的。

Q11：推导演正交基变换下的协方差矩阵更新规则

正交基变换和协方差矩阵更新规则是啥

在数据处理的时候，我们有时候需要给数据换一组 “坐标系”，这个过程就叫做基变换。而正交基变换是一种特殊的基变换，它用的变换矩阵Q是正交矩阵，啥是正交矩阵呢，就是满足 $Q^TQ = I$ 的矩阵。

设原来数据矩阵X的协方差矩阵是C，经过正交基变换 $Y = QX$ 之后呢，数据矩阵就变成了Y，它的协方差矩阵是 $C'$ 。我们要找的这个协方差矩阵更新规则，就是 $C'$ 和C之间的关系。

规则怎么推导

首先，数据矩阵X的协方差矩阵C的计算公式是 $C=\frac{1}{m - 1}(X-\bar{X})(X-\bar{X})^T$ 。这里面的m是样本的数量， $\bar{X}$ 是样本的均值。

经过正交基变换 $Y = QX$ 之后，Y的均值 $\bar{Y}=Q\bar{X}$ 。

那么Y的协方差矩阵 $C'$ 就是 $C'=\frac{1}{m - 1}(Y-\bar{Y})(Y-\bar{Y})^T$ 。我们把 $Y = QX$ 和 $\bar{Y}=Q\bar{X}$ 代进去，就得到 $C'=\frac{1}{m - 1}(QX - Q\bar{X})(QX - Q\bar{X})^T$ 。

根据矩阵乘法的运算规则，我们进一步展开这个式子，得到 $C'=\frac{1}{m - 1}Q(X - \bar{X})(X - \bar{X})^TQ^T$ 。

因为 $C=\frac{1}{m - 1}(X - \bar{X})(X - \bar{X})^T$ ，所以最终我们就得到了 $C'=QCQ^T$ ，这就是正交基变换下协方差矩阵的更新规则。

在 LLM 中的使用

在大语言模型处理高维文本数据的时候，经常需要进行降维或者特征变换。正交基变换就可以帮助我们找到更合适的特征表示。

比如说在主成分分析（PCA）中，我们通过正交基变换把数据投影到新的坐标轴上，这样就能让数据的方差最大化，从而提取出最重要的特征。而协方差矩阵的更新规则能让我们了解在变换前后数据的方差和相关性是怎么变化的。

通过这些信息，我们就可以更好地调整模型，提高模型的效率和性能。比如说在训练模型的时候，我们可以根据协方差矩阵的变化来选择更合适的参数，让模型能够更好地处理文本数据。

代码示例

import numpy as np

# 生成示例数据矩阵 X
X = np.array([[1, 2], [3, 4], [5, 6]])

# 计算原始数据的协方差矩阵 C
C = np.cov(X.T)

# 构造正交矩阵 Q
theta = np.pi / 4
Q = np.array([[np.cos(theta), -np.sin(theta)], [np.sin(theta), np.cos(theta)]])

# 进行正交基变换 Y = QX
Y = np.dot(X, Q.T)

# 计算变换后数据的协方差矩阵 C'
C_prime = np.cov(Y.T)

# 根据公式计算 C'
C_prime_formula = np.dot(np.dot(Q, C), Q.T)

print("原始协方差矩阵 C:", C)
print("变换后计算得到的协方差矩阵 C':", C_prime)
print("根据公式计算得到的协方差矩阵 C':", C_prime_formula)

在这段代码里，我们先生成了一个示例数据矩阵X，然后计算了它的原始协方差矩阵C。接着我们构造了一个正交矩阵Q，对数据矩阵X进行了正交基变换，得到了新的数据矩阵Y。然后我们分别通过计算和公式推导，得到了变换后数据的协方差矩阵 $C'$ ，并且把结果打印出来。

Q12：验证行列式 $det(A)$ 对体积缩放因子的几何意义

行列式与体积缩放因子是啥

对于一个 $n\times n$ 的矩阵A，行列式 $det(A)$ 就是一个算出来的数值。那在n维空间里，这个矩阵A其实代表着一种线性变换。啥是线性变换呢？简单说就是把空间里的向量按照一定的规则进行变换，比如旋转、拉伸等等。

而行列式 $det(A)$ 的绝对值，它表示的是这个线性变换对单位体积的缩放倍数。啥是单位体积呢？在二维空间里，单位体积就是单位正方形的面积；在三维空间里，就是单位立方体的体积；更高维空间里也类似，是对应的单位超立方体的体积。

还有，如果 $det(A)>0$ ，那就说明这个线性变换之后，空间的方向没有改变；要是 $det(A)<0$ ，那就表示空间的方向改变。

验证过程

咱以二维空间为例来好好验证一下哈。假设在二维空间里有一个单位正方形，它的四个顶点分别是 $(0,0),(1,0),(0,1),(1,1)$ 。现在有一个矩阵 $A=\begin{bmatrix}a&b\\c&d\end{bmatrix}$ ，它要对这个单位正方形的顶点进行线性变换。

那顶点 $(1,0)$ 经过这个矩阵A的变换之后，就变成了 $(a,c)$ ；顶点 $(0,1)$ 变换之后呢，变成了 $(b,d)$ 。这样变换之后，原来的单位正方形就变成了一个平行四边形。

这个平行四边形的面积怎么算呢？我们可以用向量叉积的模来计算。这两个相邻边的向量分别是 $\vec{u}=(a,c)$ 和 $\vec{v}=(b,d)$ ，那么这个平行四边形的面积 $S = |\vec{u}\times\vec{v}|$ ，而 $|\vec{u}\times\vec{v}| = |ad - bc|$ 。巧的是，矩阵A的行列式 $det(A)=ad - bc$ ，所以这个平行四边形的面积缩放因子就是 $|det(A)|$ 。

在更高维的空间里呢，原理其实是差不多的。虽然不能像二维空间这样直观地想象，但行列式的绝对值依然代表着线性变换对单位体积的缩放倍数，这就验证了行列式对体积缩放因子的几何意义。

在 LLM 中的使用

在大语言模型（LLM）的生成任务里，比如说生成图像或者文本的潜在空间中，行列式可就派上大用场啦。它可以用来衡量潜在空间的变换对样本分布的影响。

要是行列式的值过大，那就意味着经过线性变换之后，样本在空间里会变得过于分散。比如说，原本样本都集中在一个相对小的区域，行列式值一大，这些样本就会被拉伸到很大的范围，变得很稀疏。

反过来，如果行列式的值过小，样本就会过于集中。可能原本应该分布在一个较大区域的样本，都被压缩到一个很小的范围里了。

所以呢，我们可以通过调整模型中的参数，让行列式的值处于一个合适的范围，这样就能优化生成样本的质量，让生成的图像或者文本更符合我们的期望。

代码示例

import numpy as np

# 定义矩阵 A
A = np.array([[2, 0], [0, 3]])

# 计算行列式 det(A)
det_A = np.linalg.det(A)

print("矩阵 A 的行列式为:", det_A)
print("体积缩放因子为:", np.abs(det_A))

在这段代码里呢，我们先定义了一个矩阵A。然后用np.linalg.det(A)这个函数来计算矩阵A的行列式 $det_A$ 。最后把行列式的值和它的绝对值（也就是体积缩放因子）打印出来。通过这个代码，我们就能很方便地计算出矩阵的行列式和体积缩放因子。