B站吴恩达深度学习视频笔记（15）——端到端的深度学习

最新推荐文章于 2024-06-30 20:10:47 发布

原创

最新推荐文章于 2024-06-30 20:10:47 发布 · 513 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #人脸识别 #算法 #python #计算机视觉

本文探讨了端到端深度学习的概念及其在不同场景下的应用，如语音识别、人脸识别、机器翻译等，分析了其优势与挑战，以及所需数据量对系统表现的影响。

前言

从这篇笔记开始，我们来学习卷积神经网络。不过在学习卷积之前，你需要理解端到端的深度学习。笔记会从各种实际例子出发，让大家更好地理解知识。同时，需要说明的一点是，由于卷积涉及神经网络的知识非常多，有很多模型都是基于卷积神经网络的。由于我优先按照学校老师讲知识的进度更新笔记，所以这些模型很可能不会涉及。可能要等到后面几篇笔记才会讲到很高级的卷积应用。
为啥隔了这么长时间呢，因为学校老师突然讲卷积，搞得我措手不及。以前的笔记更新计划都被打乱了。有一些概念是本应该讲到的，比如超参数，但是学校老师没有讲。我只能去跳跃翻看吴恩达的视频来给你们科普这些概念，从而整理出一套最容易理解的卷积神经网络学习笔记。

什么是端到端的深度学习？

深度学习中最令人振奋的最新动态之一就是端到端深度学习的兴起，那么端到端学习到底是什么呢？

简而言之，以前有一些数据处理系统或者学习系统，它们需要多个阶段的处理。那么端到端深度学习就是忽略所有这些不同的阶段，用单个神经网络代替它。
在这里插入图片描述
我们来看一些例子，以语音识别为例，你的目标是输入x，比如说一段音频，然后把它映射到一个输出y，就是这段音频的听写文本。

所以传统上，语音识别需要很多阶段的处理。首先你会提取一些特征，一些手工设计的音频特征，也许你听过MFCC，这种算法是用来从音频中提取一组特定的人工设计的特征。在提取出一些低层次特征之后，你可以应用机器学习算法在音频片段中找到音位，所以音位是声音的基本单位，比如说“Cat”这个词是三个音节构成的，Cu-、Ah-和Tu-，算法就把这三个音位提取出来，然后你将音位串在一起构成独立的词，然后你将词串起来构成音频片段的听写文本。