深度学习习题提示与解答
1. 第1章部分习题解析
1.1 习题1.9.1
- 问题建模 :该问题可用神经元建模。当 (x < b) 时,工厂不生产,(y = 0);当 (x \geq b) 时,收益 (y = k(x - b)),其中 (k) 是与生产成本相关的正常数。激活函数为 (\phi(x) = \begin{cases} 0, & \text{if } x < 0 \ kx, & \text{otherwise} \end{cases}),收益可建模为 (y = \phi(x - b) = \phi(\sum_{i = 1}^{n} c_ix_i - b))。
- 学习问题 :给定 (x_i),求道路容量 (c_i) 的值,使收益接近给定值 (y)。需最小化的误差函数之一是 (\frac{1}{2}(y - \phi(x - b))^2)。
1.2 习题1.9.2
- 问题建模 :问题由神经元建模,输出 (y = \begin{cases} 0, & \text{if } x \leq M \ k(x - M), & \text{if } x > M \end{cases})。激活函数 (\phi(x) = \begin{cases} 0, & \text{if } x \leq 0 \ kx, & \text{if } x > 0 \end{cases}),输出变为 (y = \phi(x - M) = \phi(x_1w_1 + \cdots + x_nw_n - M))。
- 学习问题 :调整投资率 (w_i),使基金在规定时间 (t) 达到预先计划的利润 (z)。可通过求解变分问题 (w = \arg \min \frac{1}{2}(z - y)^2 = \arg \min \frac{1}{2}(z - \phi(w^T x - M))^2) 得到答案,其中 (w^T = (w_1, \cdots, w_n))。
1.3 习题1.9.3
- 单变量情况 :已知 (C(a) = \frac{1}{2} \int_{0}^{1} (ax - f(x))^2 dx),(C’(a) = a \int_{0}^{1} x^2 dx - \int_{0}^{1} xf(x) dx),(C’‘(a) = \int_{0}^{1} x^2 dx > 0),可解得 (a = 3 \int_{0}^{1} xf(x) dx),(b = f(0))。
- 双变量情况 :设 (C(a, b) = \frac{1}{2} \int_{0}^{1} \int_{0}^{1} (ax + by - f(x, y))^2 dxdy),由 ((\frac{\partial C}{\partial a}, \frac{\partial C}{\partial b}) = (0, 0)) 可得线性方程组 (\begin{cases} \frac{1}{3}a + \frac{1}{4}b = \int_{0}^{1} \int_{0}^{1} xf(x, y) dxdy \ \frac{1}{4}a + \frac{1}{3}b = \int_{0}^{1} \int_{0}^{1} yf(x, y) dxdy \end{cases}),该方程组有唯一解 (a) 和 (b),最后系数 (c = f(0, 0))。
1.4 习题1.9.4
- 行列式不等式 :利用柯西不等式可得 (\det \rho_{ij} = \begin{vmatrix} \int_{K} x^2 & \int_{K} xy \ \int_{K} xy & \int_{K} y^2 \end{vmatrix} = (\int_{K} x^2)(\int_{K} y^2) - (\int_{K} xy)^2 > 0),因为函数不成比例,所以不等式严格成立。
- 具体计算 :(\rho_{ii} = \int_{[0,1]^n} x_i^2 dx_1 \cdots dx_n = \int_{0}^{1} x_i^2 dx_i = \frac{1}{3}),(\rho_{ij} = \int_{[0,1]^n} x_ix_j dx_1 \cdots dx_n = \int_{0}^{1} x_i dx_i \int_{0}^{1} x_j dx_j = \frac{1}{4})((i \neq j))。
下面用 mermaid 流程图展示习题1.9.1的解题步骤:
graph TD
A[开始] --> B[判断x与b的大小]
B -- x < b --> C[y = 0]
B -- x >= b --> D[y = k(x - b)]
D --> E[确定激活函数\(\phi(x)\)]
E --> F[y = \(\phi(x - b)\)]
F --> G[确定误差函数\(\frac{1}{2}(y - \phi(x - b))^2\)]
G --> H[结束]
C --> H
2. 第2章部分习题解析
2.1 习题2.5.1
- (\sigma’) 的范围 :函数 (f(t) = -t^2 + t) 在 ((0, 1)) 上为正,在 (t = \frac{1}{2}) 处取得最大值 (\frac{1}{4})。由 sigmoid 性质 (\sigma’ = \sigma(1 - \sigma) = f(\sigma)),可得 (0 < \sigma’ \leq \frac{1}{4})。
- (\sigma_c’(x)) 的范围 :(\sigma_c’(x) = \frac{d}{dx} \sigma(cx) = c\sigma’(cx) = c\sigma(cx)(1 - \sigma(cx)) = cf(\sigma(cx))),所以 (0 \leq \sigma_c’(x) \leq \frac{c}{4})。
2.2 习题2.5.2
- 函数转换 :(2H(x) - 1 = \begin{cases} -1, & \text{if } x < 0 \ 1, & \text{if } x \geq 0 \end{cases} = S(x)),解出 (H(x) = \frac{1}{2}(S(x) + 1)),则 (ReLU(x) = xH(x) = \frac{1}{2}x(S(x) + 1))。
2.3 习题2.5.3
- 导数计算 :利用链式法则,(sp’(x) = (\ln(1 + e^x))’ = \frac{(1 + e^x)’}{1 + e^x} = \frac{e^x}{e^x(e^{-x} + 1)} = \frac{1}{1 + e^{-x}} = \sigma(x))。
- 单调性与反函数 :因为 (sp’(x) = \sigma(x) > 0),所以 (sp(x)) 单调递增。其反函数为 (sp^{-1}(y) = \ln(e^y - 1))。
- 等式推导 :对 (sp(x) - sp(-x) = x) 求导得 (sp’(x) + sp’(-x) = 1),结合前面结果可得 (\sigma(x) + \sigma(-x) = 1)。
2.4 习题2.5.4
通过代数计算可得 (2\sigma(2x) - 1 = \frac{2}{1 + e^{-2x}} - 1 = \frac{2e^{2x}}{e^{2x} - 1} = \frac{e^{2x} - 1}{e^{2x} + 1} = \tanh(x))。
2.5 习题2.5.5
- 函数单调性 :(so(-x) = -so(x)),函数 (so(x)) 为奇函数。当 (x > 0) 时,(so(x) = \frac{x}{1 + x} = 1 - \frac{1}{1 + x}) 单调递增;当 (x < 0) 时,利用奇函数性质可得 (so(x)) 也单调递增。
- 连续性与反函数 :(so(x)) 连续,(so(\infty+) = 1),(so(-\infty) = -1),(so) 将 (R) 一一映射到 ((-1, 1))。反函数为 (so^{-1}(y) = \frac{y}{1 - |y|})。
- 不等式证明 :由 (|x + y| \leq |x| + |y|) 及 (so) 的单调性可得 (so(|x + y|) \leq so(|x| + |y|) = \frac{|x| + |y|}{1 + |x| + |y|} = \frac{|x|}{1 + |x| + |y|} + \frac{|y|}{1 + |x| + |y|} \leq \frac{|x|}{1 + |x|} + \frac{|y|}{1 + |y|} = so(|x|) + so(|y|))。
下面是习题2.5.3的解题步骤总结表格:
|步骤|操作|
| ---- | ---- |
|1|计算 (sp’(x)),利用链式法则得出 (sp’(x) = \sigma(x))|
|2|根据 (sp’(x) > 0) 判断 (sp(x)) 单调性|
|3|求解 (sp(x)) 的反函数 (sp^{-1}(y) = \ln(e^y - 1))|
|4|对 (sp(x) - sp(-x) = x) 求导,得出 (\sigma(x) + \sigma(-x) = 1)|
3. 第3章部分习题解析
3.1 习题3.15.1
本题结果可由积分的线性性质以及对数函数的性质推出。
3.2 习题3.15.2
利用不等式 (\ln x \leq x - 1),可得:
[
\begin{align
}
S(p, q)&=-\int p(x) \ln q(x) dx\
&\geq -\int p(x)(q(x) - 1) dx\
&=-\int p(x)q(x) dx + \int p(x) dx\
&=1 - \int p(x)q(x) dx
\end{align
}
]
3.3 习题3.15.3
(D_{KL}(p||q)) 和 (D_{KL}(q||p)) 各项均为非负,即 (D_{KL}(p||q) \geq 0),(D_{KL}(q||p) \geq 0)。当且仅当 (p = q) 时,二者同时取得最小值 (0)。
3.4 习题3.15.4
-
计算 (D_{KL}(p_1||p_2))
:
[
\begin{align }
D_{KL}(p_1||p_2)&=\int_{0}^{\infty} p_1(x) \ln \frac{p_1(x)}{p_2(x)} dx\
&=\int_{0}^{\infty} \ln \frac{\xi_1}{\xi_2} p_1(x) dx + (\xi_2 - \xi_1) \int_{0}^{\infty} xp_1(x) dx\
&=\ln \frac{\xi_1}{\xi_2} + (\xi_2 - \xi_1) \frac{1}{\xi_1}\
&=\frac{\xi_2}{\xi_1} - \ln \frac{\xi_2}{\xi_1} - 1
\end{align }
] -
比较 (D_{KL}(p_1||p_2)) 和 (D_{KL}(p_2||p_1))
:
设 (f(x) = x - \ln x - 1),因为 (f(\frac{\xi_2}{\xi_1}) \neq f(\frac{\xi_1}{\xi_2})),所以 (D_{KL}(p_1||p_2) \neq D_{KL}(p_2||p_1))。
3.5 习题3.15.5
设 (p_i = P(X = x_i)),(1 \leq i \leq n)。由于 (p_i \in [0, 1]),则 (-\ln p_i \geq 0),所以 (H(X) = -\sum_{i} p_i \ln p_i \geq 0)。
3.6 习题3.15.6
由习题3.15.5可知 (H(X) \geq 0),则 (D_{KL}(p||q) = S(p, q) - H(p) \geq S(p, q))。
3.7 习题3.15.7
因为 (Z) 是 (E) - 可测的,所以 (E[Z|E] = Z),误差 (|Z - E[Z|E]| = |Z - Z| = 0),这对应于精确学习。
3.8 习题3.15.8
映射 ((w, b) \to f_{w,b}(x)) 对应于 (\mathbb{R}^n) 中的一个超平面。最优参数 ((w^ , b^ )) 对应于目标 (z) 在该超平面上的正交投影的坐标。由几何原因可知,该投影是唯一的。法方程是线性的,因此可以明确求解出 (w^ ) 和 (b^ )。
3.9 习题3.15.9
利用洛必达法则:
[
\begin{align
}
\lim_{\alpha \to 1} H_{\alpha}(p)&=\lim_{\alpha \to 1} \frac{1}{1 - \alpha} \ln \int p^{\alpha}(x) dx\
&=\lim_{t \to 0} \frac{\ln \int p^{1 - t}(x) dx}{t}\
&=\lim_{t \to 0} \frac{\frac{d}{dt} \ln \int p^{1 - t}(x) dx}{1}\
&=\lim_{t \to 0} \frac{\frac{\int p^{1 - t}(x) \ln p(x) dx}{\int p^{1 - t}(x) dx}}{1}\
&=-\int p(x) \ln p(x) dx\
&=H(p)
\end{align
}
]
3.10 习题3.15.10
-
计算 (\varphi_{\sigma} * \varphi_{\sigma}(v))
:
[
\begin{align }
\varphi_{\sigma} * \varphi_{\sigma}(v)&=\int \varphi_{\sigma}(t) \varphi_{\sigma}(t - v) dt\
&=\frac{1}{2\pi\sigma^2} \int e^{-\frac{t^2}{2\sigma^2}} e^{-\frac{(t - v)^2}{2\sigma^2}} dt\
&=\frac{1}{2\pi\sigma^2} \int e^{-\frac{(t^2 - tv + v^2/2)}{\sigma^2}} dt\
&=\frac{1}{2\pi\sigma^2} e^{-\frac{v^2}{4\sigma^2}} \int e^{-\frac{(t - v/2)^2}{\sigma^2}} dt\
&=\frac{1}{2\pi\sigma} e^{-\frac{v^2}{4\sigma^2}} \int e^{-u^2} du\
&=\frac{1}{2\sqrt{\pi}\sigma} e^{-\frac{v^2}{4\sigma^2}}\
&=\frac{1}{\sqrt{2\pi}\sigma’} e^{-\frac{v^2}{2\sigma’^2}}\
&=\varphi_{\sigma’}(v)
\end{align }
]
其中 (\sigma’ = \sigma\sqrt{2})。 -
计算 (\varphi_{\sigma} * \varphi_{\sigma’})
:
类似计算可得 (\varphi_{\sigma} * \varphi_{\sigma’} = \varphi_s),其中 (s = \sqrt{\sigma^2 + \sigma’^2})。
下面用 mermaid 流程图展示习题3.15.2的解题步骤:
graph TD
A[开始] --> B[利用不等式\(\ln x \leq x - 1\)]
B --> C[对\(S(p, q)\)进行变换]
C --> D[拆分积分]
D --> E[得出\(S(p, q) \geq 1 - \int p(x)q(x) dx\)]
E --> F[结束]
4. 第4章部分习题解析
4.1 习题4.17.1
-
计算拉普拉斯算子
:
已知 (f(x) = e^{x_1} \sin x_2),则 (\Delta f(x) = \frac{\partial^2 f}{\partial x_1^2} + \frac{\partial^2 f}{\partial x_2^2} = e^{x_1} \sin x_2 - e^{x_1} \sin x_2 = 0)。 -
计算梯度的模
:
(\nabla f(x) = (e^{x_1} \sin x_2, e^{x_1} \cos x_2)),所以 (|\nabla f| = e^{x_1} |(\sin x_2, \cos x_2)| = e^{x_1})。 -
求梯度为零的点
:
(\nabla f(x) = 0 \Leftrightarrow |\nabla f| = 0 \Leftrightarrow e^{x_1} = 0),此方程无解。 -
求函数的最值
:
因为 (f) 是调和函数(或因为 (\nabla f \neq 0)),所以 (f) 在 ([0, 1] \times [0, \frac{\pi}{2}]) 的边界上取得最值。由于 (e^{x_1})((x_1 \in [0, 1]))和 (\sin x_2)((x_2 \in [0, \frac{\pi}{2}]))均为增函数,所以 (f(x)) 在 ((x_1, x_2) = (1, \frac{\pi}{2})) 处取得最大值 (e),在 ((x_1, x_2) = (0, 0)) 处取得最小值 (0)。
4.2 习题4.17.2
-
计算梯度
:
(\nabla Q(x) = Ax - b)。 -
梯度下降迭代
:
(x_{n + 1} = x_n - \eta \nabla Q(x_n) = x_n - \eta(Ax_n - b) = (I - \eta A)x_n + \eta b)。 -
计算海森矩阵
:
(H_Q = \frac{1}{2}A)。 -
牛顿法迭代
:
(x_{n + 1} = x_n - H_Q^{-1}(x_n) \nabla Q(x_n) = \frac{1}{2}x_n + \frac{1}{2}A^{-1}b)。
假设 (x^ = \lim_{n \to \infty} x_n),对上述迭代式取极限可得 (x^ = \frac{1}{2}x^ + \frac{1}{2}A^{-1}b),即 (x^ = A^{-1}b)。极限的存在性可由归纳迭代得出。
4.3 习题4.17.3
-
成本函数的梯度和海森矩阵
:
成本函数 (C(x) = \frac{1}{2} |Ax - b|^2 = \frac{1}{2} \langle Ax - b, Ax - b \rangle = \frac{1}{2} \langle A^T Ax, x \rangle - \langle Ax, b \rangle + \frac{1}{2} |b|^2)。
梯度 (\nabla C(x) = A^T Ax - A^T b),海森矩阵 (H_C(x) = A^T A)。因为 (\det A \neq 0) 且矩阵 (A^T A) 是对称的,所以 (H_C) 有非零实特征值,这些特征值是 (A) 的特征值的平方,因此 (H_C) 是正定的。 -
梯度下降迭代
:
(x_{n + 1} = x_n - \eta \nabla C(x_n) = x_n - \eta(A^T Ax_n - A^T b) = (I - \eta A^T A)x_n + \eta A^T b)。
4.4 习题4.17.4
-
证明不等式
:
通过归纳法可得 (a_{n + 1} \leq \mu a_n + K \leq \mu^{n + 1} a_0 + K \frac{1 - \mu^{n + 1}}{1 - \mu} < a_0 + \frac{K}{1 - \mu})。 -
证明序列有界
:
对 (|v_{n + 1}| \leq \mu |v_n| + \eta |\nabla f(x_n)|) 进行分析,令 (a_n = |v_n|),则 (a_{n + 1} \leq \mu a_n + K)((K = \eta M))。由上一部分可知,序列 ((a_n)_n) 是有界的。
4.5 习题4.17.5
-
利用富比尼定理
:
本题结果可由富比尼定理推出。 -
证明卷积范数不等式
:
(|f * g|_1 = \int |f * g|(x) dx \leq \int \left( \int |f(y)| |g(x - y)| dy \right) dx = \int (|f| * |g|)(x) dx = |f|_1 |g|_1)。 -
特殊情况
:
当 (g = G_{\sigma}) 且 (|G_{\sigma}| 1 = \int {\mathbb{R}} G_{\sigma}(x)dx = 1) 时,对于 (1 \leq p \leq \infty),有 (|f_{\sigma}| p \leq |f|_p |G {\sigma}|_1 = |f|_p)。特别地,当 (p = 2) 时,对有限能量信号进行滤波也可得到有限能量信号。
4.6 习题4.17.6
-
直接计算卷积
:
[
\begin{align }
(G_{\sigma_1} * G_{\sigma_2})(x)&=\int G_{\sigma_1}(u) G_{\sigma_2}(x - u) du\
&=\frac{1}{2\pi\sigma_1\sigma_2} \int e^{-\frac{1}{2} \left( \left( \frac{u}{\sigma_1} \right)^2 + \left( \frac{x - u}{\sigma_2} \right)^2 \right)} du
\end{align }
]
通过配方法和变量代换可得 ((G_{\sigma_1} * G_{\sigma_2})(x) = G_{\sqrt{\sigma_1^2 + \sigma_2^2}}(x))。 -
利用傅里叶变换证明
:
根据傅里叶变换的性质 (F(f * g)(\xi) = F(f)(\xi) F(g)(\xi)) 和 (F(e^{-ax^2}) = \sqrt{\frac{\pi}{a}} e^{-\frac{(\pi a)^2}{a}}),可得 (F(G_{\sigma_1} * G_{\sigma_2})(\xi) = F(G_{\sigma_1})(\xi) F(G_{\sigma_2})(\xi) = e^{- (2\pi\sigma_1\xi)^2} e^{- (2\pi\sigma_2\xi)^2} = e^{- 2^2\pi^2 (\sigma_1^2 + \sigma_2^2) \xi^2} = F(G_{\sigma})),其中 (\sigma = \sqrt{\sigma_1^2 + \sigma_2^2})。再应用逆变换 (F^{-1}) 可得相同结果。
4.7 习题4.17.7
考虑带约束的变分问题 (L = \frac{1}{2} (\sigma_1^2 + \cdots + \sigma_n^2) - \lambda (\sigma_1 + \cdots + \sigma_n - s)),其中 (\lambda) 是拉格朗日乘数。最小值满足 (\frac{\partial L}{\partial \sigma_j} = \sigma_j - \lambda = 0),即 (\sigma_j = \lambda),(\forall 1 \leq j \leq n)。
下面是习题4.17.2的解题步骤总结表格:
|步骤|操作|
| ---- | ---- |
|1|计算 (\nabla Q(x)),得到 (\nabla Q(x) = Ax - b)|
|2|进行梯度下降迭代 (x_{n + 1} = (I - \eta A)x_n + \eta b)|
|3|计算海森矩阵 (H_Q = \frac{1}{2}A)|
|4|进行牛顿法迭代 (x_{n + 1} = \frac{1}{2}x_n + \frac{1}{2}A^{-1}b)|
|5|取极限求 (x^
),得到 (x^
= A^{-1}b)|
超级会员免费看
924

被折叠的 条评论
为什么被折叠?



