sheng的学习笔记-【中】【吴恩达课后测验】Course 5 - 序列模型 - 第三周测验 - 序列模型与注意力机制

最新推荐文章于 2026-01-05 16:48:34 发布

原创最新推荐文章于 2026-01-05 16:48:34 发布 · 812 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #笔记

吴恩达作业-深度学习专栏收录该内容

17 篇文章

订阅专栏

课程5_第3周_测验题

第一题

1.想一想使用如下的编码-解码模型来进行机器翻译，这个模型是“条件语言模型”，编码器部分(绿色显示)的意义是建模中输入句子x的概率。

在这里插入图片描述

A. 【】正确

B. 【】错误

答案：

B.【 √ 】错误

第二题

2.在集束搜索中，如果增加集束宽度 $b$ ，以下哪一项是正确的？

A. 【】集束搜索将运行的更慢

B. 【】集束搜索将使用更多的内存

C. 【】集束搜索通常将找到更好地解决方案（比如：在最大化概率 $P (y ∣ x)$ 上做的更好）

D. 【】集束搜索将在更少的步骤后收敛

答案：

A.【 √ 】集束搜索将运行的更慢

B.【 √ 】集束搜索将使用更多的内存

C.【 √ 】集束搜索通常将找到更好地解决方案（比如：在最大化概率 $P (y ∣ x)$ 上做的更好）

第三题

3.在机器翻译中，如果我们在不使用句子归一化的情况下使用集束搜索，那么算法会输出过短的译文。

A. 【】正确

B. 【】错误

答案：

A.【 √ 】正确

第四题

4.假设你正在构建一个能够让语音片段 $x$ 转为译文 $y$ 的基于RNN模型的语音识别系统，你的程序使用了集束搜索来试着找寻最大的 $P (y ∣ x)$ 的值y。在开发集样本中，给定一个输入音频，你的程序会输出译文 $\hat{y}$ = “I’m building an A Eye system in Silly con Valley.”，人工翻译为 $y^*$ = “I’m building an AI system in Silicon Valley.”

在你的模型中,

$P(\hat{y} \mid x) = 1.09*10^{-7}$

$P(y^* \mid x) = 7.21*10^{-8}$

那么，你会增加集束宽度 $B$ 来帮助修正这个样本吗？

A. 【】不会，因为 $P(y^* \mid x) \leq P(\hat{y} \mid x)$ 说明了问题在RNN，而不是搜索算法

B. 【】不会，因为 $P(y^* \mid x) \leq P(\hat{y} \mid x)$ 说明了问题在搜索算法，而不是RNN

C. 【】会的，因为 $P(y^* \mid x) \leq P(\hat{y} \mid x)$ 说明了问题在RNN，而不是搜索算法

D. 【】会的，因为 $P(y^* \mid x) \leq P(\hat{y} \mid x)$ 说明了问题在搜索算法，而不是RNN

答案：

A.【 √ 】不会，因为 $P(y^* \mid x) \leq P(\hat{y} \mid x)$ 说明了问题在RNN，而不是搜索算法

第五题

5.接着使用第4题的样本，假设你花了几周的时间来研究你的算法，现在你发现，对于绝大多数让算法出错的例子而言， $P(y^* \mid x) > P(\hat{y} \mid x)$ ，这表明你应该将注意力集中在改进搜索算法上，对吗？

A. 【】正确

B. 【】错误

答案：

A.【 √ 】正确

第六题

6.回想一下机器翻译的模型：

在这里插入图片描述

除此之外，还有个公式 $\alpha^{< t,t'>} = \frac{\text{exp}(e^{< t,t'>})}{\sum^{T_x}_{t'=1}\text{exp}(e^{< t,t'>})}$ ，下面关于 $\alpha^{< t,t'>}$ 的选项那个（些）是正确的？

A. 【】对于网络中与输出 $y^{<t>}$ 高度相关的 $\alpha^{< t'>}$ 而言，我们通常希望 $\alpha^{< t,t'>}$ 的值更大（请注意上标）

B. 【】对于网络中与输出 $y^{<t>}$ 高度相关的 $\alpha^{< t>}$ 而言，我们通常希望 $\alpha^{< t,t’>}$ 的值更大（请注意上标）

C. 【】 $\sum_t\alpha^{< t,t'>} = 1$ (注意是和除以t)

D. 【】 $\sum_{t'}\alpha^{< t,t'>} = 1$ (注意是和除以t’)

答案：

A.【 √ 】对于网络中与输出 $y^{<t>}$ 高度相关的 $\alpha^{< t'>}$ 而言，我们通常希望 $\alpha^{< t,t'>}$ 的值更大（请注意上标）

D.【 √ 】 $\sum_{t'}\alpha^{< t,t'>} = 1$ (注意是和除以t’)

第七题

7.网络通过学习的值 $e^{< t,t'>}$ 来学习在哪里关注“关注点”，这个值是用一个小的神经网络的计算出来的：

这个神经网络的输入中，我们不能用 $s^{<t>}$ 替换 $s^{<t-1>}$ 。这是因为 $s^{< t>}$ 依赖于 $\alpha^{< t,t'>}$ ，而 $\alpha^{< t,t'>}$ 又依赖于 $e^{< t,t'>}$ ；所以在我们需要评估这个网络时，我们还没有计算出 $s^{t}$ 。