从矩阵到卷积： AI世界的数学秘密_人工智能,卷积运算矩阵计算-优快云博客

本文链接：https://blog.youkuaiyun.com/Appleeatingboy/article/details/148634035

在人工智能（AI）里，无论你是在识别猫的照片，还是在与 ChatGPT 聊天，你可能都听过一个词：矩阵。
它看起来像一堆数字排成的表格，背后却是 AI 理解世界的基础。那么，为什么 AI 的实现要用矩阵？又是什么让矩阵变得如此重要？本文从零出发，带你一步步看清楚这背后的逻辑。

一. 什么是矩阵？为什么要用矩阵来表示东西呢？为什么会产生矩阵运算呢？

最近在学习矩阵的知识，当静下来的时候，就会问自己上面的问题。

🧊1. 什么是矩阵？

矩阵（Matrix）是一个按照长方形排列的数表，通常用一对大括号或中括号表示：

A = $\begin{bmatrix} 1& 2 &3 \\ 4& 5 & 6 \end{bmatrix}$

它有行（row）和列（column），上面的矩阵是一个 2行3列 的矩阵（记作 2×3）。

🧭 2.为什么要用矩阵来表示东西？

1. 方便描述多元信息

在很多现实问题中，我们不是只处理一个数字，而是多个变量：

比如：你想用一个表格来记录5个学生的语文、数学、英语成绩，那不就是一个矩阵吗？

成绩表= $\begin{bmatrix} 78 & 90 &85 \\ 88 & 95 & 91\\ ... & & \end{bmatrix}$

2. 简洁地表示线性变换

在几何中，一个点可以表示成一个向量：

v⃗= $\begin{bmatrix} x\\ y \end{bmatrix}$

比如把这个点绕原点旋转或缩放 —— 这些变换操作本质上就是矩阵乘法：

旋转90°的矩阵= $\begin{bmatrix} 0& -1\\ 1& 0 \end{bmatrix}$

然后用矩阵乘以向量，你就得到了新位置。

3. 程序友好：计算机天然适合处理矩阵

在计算机里，图像、声音、表格、神经网络的权重……都可以变成一个个的矩阵。这种结构：

有规律
易于压缩存储
能用统一的数学方法处理

🔄 3.为什么会产生矩阵的“运算”？

1. 我们希望对“整体”做操作

你可以单独处理每个变量（很慢），但更有效的方法是把它们一起变换 —— 就需要矩阵加法、乘法等运算。

例如：

矩阵相加：表示两个系统的叠加
矩阵乘法：表示线性变换的组合

A⋅v⃗ = 新向量

2. 矩阵乘法是“变换叠加”的数学描述

如果你做了两个连续的几何变换（比如先旋转再缩放），每个变换都有一个矩阵，它们连乘就是总效果：

旋转矩阵⋅缩放矩阵=总变换矩阵

这比你一步步算每个点快得多，尤其当点有上百万个时。

二.为什么在 AI 或计算机中要用旋转、缩放这些几何操作？它们有什么实际用处?

✅1.为什么要用矩阵？

1.矩阵是表达多维数据的自然方式

在 AI 中，我们处理的很多都是多维信息，比如：

一张图片 = 数万个像素点（二维矩阵或三维张量）
一段文本 = 一串词向量（矩阵）
一段音频 = 时间 + 频率的特征（矩阵）

用矩阵表示这些数据既直观，又便于统一处理。

2. 矩阵计算效率高，适合并行

矩阵运算（如矩阵乘法）可以在现代硬件（如 GPU）上并行加速，比逐项计算快得多，特别适合训练大规模神经网络。

3. 神经网络的本质就是矩阵运算

神经网络的每一层通常都是这样一个公式：

输出=激活函数(W⋅X+b)

X：输入（向量或矩阵）
W：权重矩阵
b：偏置向量

整张网络本质上就是不断地“矩阵 × 矩阵”。

✅2.现实世界是“空间的”

现实世界中，图像、视频、物体、动作、声音……都具有“结构”，尤其是空间结构。

比如：

图像中，一个猫的眼睛可能在不同位置
摄像头拍摄物体，角度可能变化
字体在 OCR 中可能大小不同

但你希望 AI 认出它们是“同一个东西” —— 不管它有没有旋转、缩放、平移。

这就需要数学上处理这种“变化”，而矩阵正是这种变化的通用语言。

✅3、在 AI 里，旋转/缩放的实际应用

1. 🖼 图像识别 & 卷积神经网络（CNN）

神经网络要识别图像，比如：

看清一个字母 “A”
识别猫狗
判断交通标志

但图像可能是：

倾斜的
放大的
被镜像了

旋转、缩放的矩阵变换可以：

模拟这些变化
增强训练数据（data augmentation）
帮助网络学习“变化不变性”

📌 示例：

# 用 PyTorch 对图像进行旋转
import torchvision.transforms as transforms
rotate = transforms.RandomRotation(degrees=30)

这就是把旋转变换作为一种“训练”手段。

2. 🤖 计算机视觉：目标检测、姿态估计

在机器人或自动驾驶中，你需要“知道物体的朝向和位置”：

一个行人在你前面走过，他的姿态改变了
摄像头转了一下，世界坐标变了

用旋转矩阵就可以：

表示物体姿态
把坐标从相机系转换到世界坐标系

📌 三维坐标系变换公式：

$P{world} = R \cdot P{camera} + T$

其中 R 是旋转矩阵，T是平移向量。

3. 🧬 神经网络的“线性层” 本质上是矩阵变换

每一层神经网络，其实都是:

输出=W⋅输入+b

这和我们前面讲的：

向量乘以矩阵
再加一个偏移量

本质完全一样！

这就是线性变换 + 偏移，它就是神经网络最基本的结构。

三、像chatgpt 这种只进行文字问答的，底层模型中也是用矩阵来处理的吗？

是的！即使是 ChatGPT 这种只处理文字的 AI，本质上 也完全依赖矩阵运算，而且用得比图像领域还要多、更核心！

文字处理的 AI 模型（如 ChatGPT），虽然输入是文字，但内部是把文字变成“向量”，然后用“矩阵”反复计算、变换、组合，直到得到理解或生成的结果。

1.为什么文字也要用矩阵？

因为计算机 不能直接“理解”文字本身，比如“猫”“爱”“哲学”，它不懂这些词的意义。所以我们要先：

第一步：把文字变成数字

这叫做 “向量化” 或 “词嵌入”（word embedding）

例子：

“猫” → [0.1,−0.3,0.8,… ]
“狗” → [0.2,−0.25,0.75,… ]

这些向量的维度可能是 300、768、2048，甚至上万维！

第二步：用矩阵去“理解”这些向量之间的关系

就像你小时候学语文一样，要理解：

谁是主语、谓语、宾语？
“我喜欢猫” ≈ “猫很可爱”吗？
“他”和“她”有什么不同？

模型就需要用 很多矩阵乘法 来处理这些向量，发现“结构”“上下文”“含义”。

2.ChatGPT 的底层做了什么？

ChatGPT 使用的是一种叫 Transformer 的模型，它里面几乎全是矩阵操作：

1. 输入向量乘矩阵 → 变成“查询、键、值”（Q, K, V）

$Q = X \cdot W_{Q} , K = X\cdot W_{K}, V=X\cdot W_{V}$

这些 $W$ 全都是矩阵，代表模型学到的“注意力”规则。

2. 计算“注意力分数”（靠矩阵相乘）

$Attention = softmax\left ( \frac{QK^{T}}{\sqrt{d_{k}}} \right )\cdot V$

这就是模型为什么能理解你说的话、关联前后句的关键步骤！

🔁 举个通俗的比喻：

你可以把 ChatGPT 想象成一个超级聪明的大脑，它读到每个词时，会问自己：

“这个词跟前面说过的那个词有啥关系？”
“这个句子结构正常吗？”
“我要怎么根据这些词去生成下一个词？”

它对每个词都用向量表示，再用矩阵去反复算这些关系。所有这些操作，通通都是线性代数（矩阵运算）。

四、那么卷积又是什么？它与矩阵有关系吗？

卷积 (Convolution) 是一种“滑动窗口”的运算，用来从数据中提取局部特征。

本质上是“用一个小矩阵（卷积核）在大矩阵（比如图片）上滑动并做乘法+加法”。

卷积是一种“局部感知+权重共享”的矩阵操作方式，是 AI 中提取特征的利器。它和矩阵乘法一样，是现代深度学习的基础操作之一。

1. 类比说明：

想象你拿着一个小放大镜（就是卷积核），在图像上一格一格地扫（滑动），每次都看局部细节，并记下它的“印象”（即卷积结果）。

举个简单的二维图像卷积例子：

比如这个是一个图像（像素值是灰度）：

这是一个卷积核（滤波器）：

卷积核 K =
0 1  
1 0

你把 K 放到 A 的左上角对齐，然后：

对应元素相乘
相乘结果相加
把这个结果当成“特征值”输出

然后你往右滑一步，重复这个过程，直到遍历整个图像。

2.卷积与矩阵的关系？

虽然卷积不是简单的“矩阵乘法”，但它：

输入是矩阵（图像、音频、文本的向量表示）
卷积核也是小矩阵
本质上是一种局部的矩阵运算（带有权重、滑动、叠加）

可以理解为“带结构的矩阵乘法”。

在底层实现时：

很多框架（如 PyTorch、TensorFlow）会把卷积转化为“矩阵乘法”的形式来加速。
卷积神经网络（CNN）通过不断地卷积提取局部特征，最终使用全连接层（标准矩阵乘法）做分类或预测。

3. 为什么不直接用普通矩阵乘法？

普通矩阵乘法（全连接）：

每个输出神经元关注所有输入
参数多，效率低，容易过拟合

卷积：

只看“局部”区域
参数共享（同一个卷积核反复用）
更适合图像、音频等“局部特征很重要”的数据
训练效率更高，泛化能力更强

4.微积分中的卷积和机器学习中的卷积的区别

领域	卷积的含义
微积分/信号处理	是两个函数的加权重叠积分，强调连续信号的叠加和传播
机器学习/CNN	是一个小矩阵滑动窗口加权求和，强调局部特征提取

一、微积分中的卷积

数学定义（连续）

对两个函数 f(t)f(t)f(t) 和 g(t)g(t)g(t)，它们的卷积定义为：

$\left ( f\cdot g \right )\left ( t \right ) = \int_{-\infty }^{\infty } f\left ( \tau \right )\cdot g\left ( t - \tau \right )d\tau$

直观理解：

把函数 g 反转（镜像）并平移；
然后与函数 f 重叠做积分（像滑动做乘法叠加）；
卷积的结果是“一个信号通过另一个函数（如滤波器）传播后的响应”。

应用场景：

信号处理（滤波器、系统响应）
物理（冲击响应）
控制系统
微分方程求解

二、机器学习 / 卷积神经网络（CNN）中的卷积

定义（离散）

给定输入图像 III 和卷积核 KKK，卷积操作为：

$O\left ( i,j \right ) = \sum_{m}^{} \sum_{n}^{} K\left ( m,n \right ) \cdot I\left ( i+m,j+n \right )$

注意：没有反转卷积核（这是和数学卷积的关键差异）

实际做法：

一个小卷积核（如 3×3）在图像上滑动；
在每个位置上，进行元素乘法再求和；
得到一个新图像（特征图）。

应用场景：

图像识别（边缘提取、纹理提取）
自然语言处理（局部语义关系建模）
语音识别

🎯 核心区别总结

方面	微积分中的卷积	CNN中的卷积（离散）
核心操作	积分，函数反转	加权求和，不反转核
目的	模拟系统响应、平滑信号	提取局部特征
输入类型	连续函数（时间/空间）	离散数组（如图像）
是否核反转	是（g(t − τ)）	否
是否可训练	否，核固定（物理含义）	是，核是模型参数，可训练