数学表达式魔训

最新推荐文章于 2024-02-21 20:23:41 发布

帅雪人

最新推荐文章于 2024-02-21 20:23:41 发布

阅读量598

点赞数 1

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/Alva_xtt/article/details/119103492

本文是一篇关于提升数学表达式理解和使用的训练教程，内容涵盖第一天的概论、集合论、向量与矩阵，第二天的二元关系和函数，以及第三天的相关练习。文章强调了数学表达式在学术写作中的重要性，提供了抄写和理解公式的方法，同时也指出了常见错误和注意事项。训练包括符号统一、矩阵乘法、函数关系、模2同余关系、粗糙集理论等概念的探讨，并配有相关例题和作业。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引言

你好！这里是引言，随着课程的推进将会不断丰富此段内容。

1. 第一天

在这段中，主要讲经过一天的学习，自己的收获以及体验，并且对学到的东西学以致用，简单说就是写一些小例子。当然，还要完成一些小挑战。先说一下这一天的收获吧，知识性的东西在 @minfanphd 文档里面都可以看见，因此不在这里进行重复叙述。

概论

首先，数学语言的重要性毋庸置疑，它可以说是最简洁的一种语言，能够非常简单的将我们要讲述的事情表达清楚。也是因为我们的式子 (equation) 写的不够好才有了这次的魔鬼培训。如果对这些比较恐惧 – 包括看到式子写不出代码或者写出了代码但写不出式子，模仿无疑是有效的一种方法。对这那些大佬写的书，将他们的公式抄写几遍，俗话说书读百遍其义自见，那么公式多抄几遍，也就有了自己的体会。

另外有几个需要特别注意的地方：
1. 一篇论文中的格式要统一，也就是 @minfanphd 常说的内部系统不能出错。
2. equation 以及 expression才是我们应当写进论文的。
3. 不要写 “xxx 提出了” 以及 “xxx说”。
4. 学到了 \left 和 \right 的使用方法（将在下文使用）。

集合论

1. \mathrm 的使用，使用和不使用的效果为： $\mathrm{a}$ 、 ${a}$ .
2. 这个 $\emptyset$ 才是空集，这个 $\phi$ 不是.
3. $\mathbf{A} \cup \mathbf{B}$ 、 $\bigcup_{i=1}^n \mathbf{A}_i$ 、 $\mathbf{A} \cap \mathbf{B}$ 、 $\bigcap_{i=1}^n \mathbf{B}_i$ 、 $\mathbf{A} \setminus \mathbf{B}$ 、 $\overline{A}$ 、 $\underline{B}$ .
4. $\mathbf{A}$ 的幂集为： $2^{\mathbf{A}} = \{\mathbf{B} \vert \mathbf{B} \subseteq \mathbf{A}\}$ .
5. 笛卡尔积 $\mathbf{A} \times \mathbf{B} = \{(a, b) \vert a \in \mathbf{A}, b \in \mathbf{B}\}$ .
6. 一维数据的空间为 $\mathbb{R}$ , 二维为 $\mathbb{R}^2$ , $n$ 维为 $\mathbb{R}^n$ .

向量与矩阵

1. 这是行向量 $\mathbf{x} = (x_1, \dots, x_n) = [x_1, \dots, x_n] \in \mathbb{R}_n$
2. 这是列向量 $\mathbf{x}^\mathrm{T} = (x_1, \dots, x_n)^\mathrm{T} = [x_1; \dots; x_n]$ .
3. 假设矩阵有 $n$ 行 $m$ 列: $[x_{ij}]_{n \times m} \in \mathbb{R}^{n \times m}$ .

作业

学习、使用数学表达式时的困难

经常遇到的是符号不统一的问题。如在单标签的有监督学习中，数据集 $\mathbf{D} = (\mathbf{X}, \mathbf{Y})$ ，其中 $\mathbf{X} = (\mathbf{x}_1, \dots, \mathbf{x}_n)$ 、 $\mathbf{Y} = (y_1, \dots, y_n)$ 。这是在上文中写出来的，写到后面可能就会变成 $\mathbf{X} = (\mathbf{m}_1, \dots, \mathbf{m}_n)$ ，写的比较随心所欲。
其次是别人的式子写的太复杂，看起来比较头疼。这里的复杂并不是公式本身有多复杂，而是变量太多，许多的符号意义不明。例如在式子(1) 和式子 (2) 中，掺杂着大量未知符号 $\mu, \pi, a$ 等，就很难理解。

$T_{r, h}^{\mu, \pi} Q(x, a) = h\left( \mathbb{E}_{\tau \sim T} \left[ h^{-1} (Q(x, a)) + \sum_{t \ge 0}^{} \gamma^t \left( \prod_{s=1}^t c_s \right) \delta_t^h \right] \right) \tag{1},$

$\delta_t^h = r_t + \gamma \sum_{a \in A} \pi (a \vert X_{t+1}) h^{-1}(Q(X_{t+1}, a)) - h^{-1}(Q(X_t, A_t)) \tag{2}.$

考虑问题不够全面，例如某一问题的优化目标应当是使得损失函数 $\mathcal{L}$ 最小。
$\mathcal{L} = \sum_{i=1}^m \sum_{j=1}^n \left( y^{\prime}_{i,j} - f(y_{i,j}) \right) ^2 + \frac{\lambda_1}{2} \sum_{y^{\prime}} \vert y^{\prime} \vert \tag{3}$
但由于考虑的不完整，所以丢失了一个维度，导致上述损失函数变为 (4) 所示。
$\mathcal{L} = \sum_{j=1}^n \left( y^{\prime}_{j} - f(y_{j}) \right) ^2 + \frac{\lambda_1}{2} \sum_{y^{\prime}} \vert y^{\prime} \vert \tag{4}$

抄写与答题

令 $\mathbf{A} = \{3, 5\}$ , 要求写出 $2^{\mathbf{A}}$ .
$2^\mathbf{\vert A \vert} = 4 \\ 2^\mathbf{A} = \{\emptyset, \{3\}, \{5\}, \{3, 5\}\}$
展开 $2^{\emptyset}$ .
$2^\mathbf{\vert \emptyset \vert} = 0 \\ 2^\mathbf{\emptyset} = \{\emptyset\}$
令 $\mathbf{A} = \{5, 6, 7, 8, 9\}$ , 写出 $\mathbf{A}$ 的其它两种表示法.
$\mathbf{A} = \{x \in N \vert 4 < x < 10\} \\ \mathbf{A} = [5 .. 9]$
抄写式子已经放在上一部分.
矩阵相乘的小例子
$\begin{bmatrix} 1 & 3 \\ 5 & 7 \\ 6 & 8 \end{bmatrix} \times \begin{bmatrix} 1 & 1 & 1 \\ 1 & 1 & 1 \end{bmatrix} = \begin{bmatrix} 4 & 4 & 4 \\ 12 & 12 & 12 \\ 14 & 14 & 14 \end{bmatrix}$

找错

1. 第4页的等式 (5) m-th，没有写成 $m$ -th。
2. 第4页的等式 (5) 下边，只解释了 $\vert . \vert$ 以及 $\vert \vert . \vert \vert_1$ ，没有解释（5）中出现的 $\vert \vert . \vert \vert_2$ 。

2. 第二天

二元关系

1. 定义: Let $\mathbf{A}$ and $\mathbf{B}$ be sets. Any $\mathbf{R} \subseteq \mathbf{A} \times \mathbf{B}$ is called a binary relation.
2. 两个关系的乘法： $\mathbf{R}_1\mathbf{R}_2 = \{(x, y) \vert \exists (x, z) \in \mathbf{R}_1 \textrm{ and } (z, y) \in \mathbf{R}_2\}$ .
3. 这是正闭包： $\mathbf{R}^+ = \bigcup_{i=1}^{\vert A \vert} \mathbf{R}^i$ .
4. 这是克林闭包： $\mathbf{R}^* = \mathbf{R}^+ \cup \mathbf{A}^0$ .

函数

1. 通常，函数关系是直接给出，例如 $f (x) = x + 1$ ，但在机器学习领域，我们需要从数据 $\mathbf{D}$ 中学习出 $f$ , 即 $\mathbb{R}^m \to \mathbb{R}$ .
2. 特别的，函数 $f (x) = x + 1$ ，也可以看成 $\mathbb{R}$ 上的二元关系，我的理解是：该关系更像是等于关系和小于关系的结合，它像等于关系，但又不是等于本身，同时像小于关系，属于某一个区域。
3. 正负2应用 \pm，即 $\pm$ 2.

作业

令 $\mathbf{A} = \{ 1 , 2 , 5 , 8 , 9 \}$ , 写出 $\mathbf{A}$ 上的 “模 2 同余” 关系及相应的划分.
$\mathbf{R} = \{(a, b) \in \mathbf{A} \times \mathbf{A} \vert a \mod 2 = b \mod 2\} \\ \mathbf{R} = \{(1, 1) , (1, 5) , (1, 9) , (5, 5) , (5, 9) , (9, 9) , (2, 2) , (2, 8) , (8, 8)\} \\ \mathcal{P} = \{\{1, 5, 9 \}, \{2, 8 \} \}$
令 $\mathbf{A} = \{ 1 , 2 , 5 , 8 , 9 \}$ ,定义两个关系 $\mathbf{R}_1, \mathbf{R}_2$ ，并计算 $\mathbf{R}_1 \circ \mathbf{R}_2, \mathbf{R}^+_1, \mathbf{R}^*_1$ .
$\mathbf{R}_1 = \{(a, b) \in \mathbf{A} \times \mathbf{A} \vert a \mod 2 = b \mod 2\} \\ \mathbf{R}_1 = \{(1, 5), (1, 9), (5, 9), (2, 8)\} \\ \mathbf{R}_2 = \{(a, b) \in \mathbf{A}^2 \vert a = b \} \\ \mathbf{R}_2 = \{(1, 1), (2, 2), (5, 5), (8, 8), (9, 9) \}$
$\mathbf{R}_1 \circ \mathbf{R}_2 = \{(1, 5), (1, 9), (5, 9) , (2, 8), \dots \}$
$\mathbf{R}^+_1 = \{(1, 5), (1, 9), (5, 9) , (2, 8)\}\}$
$\mathbf{R}^*_1 = \{(1, 5), (1, 9), (5, 9) , (2, 8), (1, 1), (2, 2), (5, 5), (8, 8), (9, 9)\}$
粗糙集
粗糙集是用来研究不完整数据，不精确知识的表达、学习，归纳等的一套理论。
给定一个粗糙集 $\mathbf{Y}$ 以及原始数据的划分结果 $\mathbf{X}_1, \dots, \mathbf{X}_n$ , 如果 $\mathbf{Y} \cap \mathbf{X}_i$ 不为 $\emptyset$ . 则 $\mathbf{X}_i$ 为 $\mathbf{Y}$ 的一个上近似. 若 $\mathbf{X}_j \subseteq \mathbf{Y}$ , 则 $\mathbf{X}_j$ 为 $\mathbf{Y}$ 的一个下近似.
我所理解的函数是从基础开始，比如最开始一元一次函数 $f (x) = x + 1$ , 进阶的一元二次函数 $g(x) = x^2 + 1$ ，以及多元函数 $h(x, y) = (x + y)^ 2 + x + y$ . 上述所写的例子均是一对一的关系，即一个或一组自变量只能对应一个函数值，类似于 $x^2 + y^2 = 1$ 这样的就不是函数, 只能叫做圆的表达式。
令矩阵 $\mathbf{A}$ =
$\begin{bmatrix} 1 & 2 & 3 \\ -1 & -2 & 5 \end{bmatrix}$
求该矩阵的各个范数。
$\vert \vert A \vert \vert_0 = 6$
$\vert \vert A \vert \vert_1 = 1 + 2 + 3 + 1 + 2 + 5 = 14$
$\vert \vert A \vert \vert_2^2 = 14 + 30 = 44$
$\vert \vert A \vert \vert_\infty = 5$
解释参数
$\min \sum_{(i, j) \in \Omega} (f(\mathbf{x}_i, \mathbf{t}_j) - r_{ij})^2$
其中， $\mathbf{x}_i$ 表示用户信息表 $\mathbf{X} = (\mathbf{x}_1, \dots, \mathbf{x}_n)^\mathrm{T}$ 中的一条记录, 用户信息表是 $\times d_u$ 的矩阵，其中 $d_u$ 代表用户的属性个数. $\mathbf{t}_j$ 表示商品信息表 $\mathbf{T} = (\mathbf{t}_1, \dots, \mathbf{t}_m)^\mathrm{T}$ 中的一条记录, 商品信息表是 $\times d_t$ 的矩阵, 其中 $d_t$ 代表商品的属性个数. $r_{ij}$ 为评分表 $\mathbf{R} = (r_{ij})_{n \times m}$ 中的一条记录, 其取值为 ${0, 1 \}$ (是否看过) 或者 ${1, 2, 3, 4, 5 \}$ (五个等级).

3. 第三天

令向量 $\mathbf{A} = (1, 2, 3, 4, 5, 6, 7, 8, 9, 10)$ .
$\sum_{i=1}^5 A_{2 * i} = 30.$
$\sum_{i=1}^{10} A_{i} = 55.$
$\prod_{i=1}^{5} A_{2 * i} = 3840.$
$\int_{-2}^{2} 3x^2 \mathrm{d}x = 16.$
三重累加前段时间刚刚用过, 大致是: 现在有三类数据 $\mathbf{D} = (\mathbf{d}_1, \mathbf{d}_2, \mathbf{d}_3)$ , 其中 $\mathbf{d}_m = (x_1, \dots, x_n)$ . 现在需要从这三类数据中分别抽取一个样本，再将它们的值进行相加得到最终的结果, 在每三类中进行选择就是一个三重循环.
$\sum_{i = 1}^n \sum_{j = 1}^n \sum_{k = 1}^n (d_{1i} + d_{2j} + d_{3k})$
对于定积分 $\int_{-2}^{2} 3x^2 \mathrm{d}x$ , 手算的结果为16，下列程序的结果为 16.08.

integration = 0
delta_x = 0.01
x = np.linspace(-2, 2, 400)
for i in x:
	integration += 3 * (i ** 2) * delta_x
print(integration)

Logistics本来是一个回归方法，但主要是用来做二分类。其实现机制是通过回归计算出一个值，通过这个值来判断该样本属于哪一类, 例如对于样本 $x_i$ 的回归值为 0.8, 则它会被分为 1 类. 它的特点主要有：用回归做分类、回归值处于0-1之间，可当做概率、实现简单、具有可解释性、在空间中划分超平面.
优化目标
$P(y_i \vert \mathbf{x}_i ; \mathbf{w}) = P(y_i = 1 \vert \mathbf{x}_i ; \mathbf{w})^{y_i} (1 - P(y_i = 0 \vert \mathbf{x}_i ; \mathbf{w}))^{1 - y_i}$
使用极大似然估计将概率转化为连乘的形式.
$\argmax_\mathbf{w} L(\mathbf{w}) = \prod_{i = 1}^n P(y_i \vert \mathbf{x}_i ; \mathbf{w})$
同极大似然估计法一样，连乘不方便求解，因此两边取对数.
$\begin{aligned} \log L(\mathbf{w}) & = \sum_{i = 1}^n \log P(y_i \vert \mathbf{x}_i; \mathbf{w}) \\ & = \sum_{i = 1}^n y_i \log P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w}) + (1 - y_i) \log(1 - P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})) \\ & = \sum_{i = 1}^n y_i \log \frac{P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})}{1 - P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})} + \log (1 - P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})) \\ & = \sum_{i = 1}^n y_i \mathbf{x}_i \mathbf{w} - \log (1 + e^{\mathbf{x}_i \mathbf{w}}) \end{aligned}$
使用梯度下降求 $\mathbf{w}$ .
$\mathbf{w}^{t+1} = \mathbf{w}^t - \alpha \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}}$
其中 - 代表负梯度的方向， $\alpha$ 表示每次迭代的步长， $\frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}}$ 则表示该点处的梯度.