B站吴恩达深度学习视频笔记(15)——端到端的深度学习

本文探讨了端到端深度学习的概念及其在不同场景下的应用,如语音识别、人脸识别、机器翻译等,分析了其优势与挑战,以及所需数据量对系统表现的影响。

前言

从这篇笔记开始,我们来学习卷积神经网络。不过在学习卷积之前,你需要理解端到端的深度学习。笔记会从各种实际例子出发,让大家更好地理解知识。同时,需要说明的一点是,由于卷积涉及神经网络的知识非常多,有很多模型都是基于卷积神经网络的。由于我优先按照学校老师讲知识的进度更新笔记,所以这些模型很可能不会涉及。可能要等到后面几篇笔记才会讲到很高级的卷积应用。
为啥隔了这么长时间呢,因为学校老师突然讲卷积,搞得我措手不及。以前的笔记更新计划都被打乱了。有一些概念是本应该讲到的,比如超参数,但是学校老师没有讲。我只能去跳跃翻看吴恩达的视频来给你们科普这些概念,从而整理出一套最容易理解的卷积神经网络学习笔记。

什么是端到端的深度学习?

深度学习中最令人振奋的最新动态之一就是端到端深度学习的兴起,那么端到端学习到底是什么呢?

简而言之,以前有一些数据处理系统或者学习系统,它们需要多个阶段的处理。那么端到端深度学习就是忽略所有这些不同的阶段,用单个神经网络代替它。
在这里插入图片描述
我们来看一些例子,以语音识别为例,你的目标是输入x,比如说一段音频,然后把它映射到一个输出y,就是这段音频的听写文本。

所以传统上,语音识别需要很多阶段的处理。首先你会提取一些特征,一些手工设计的音频特征,也许你听过MFCC,这种算法是用来从音频中提取一组特定的人工设计的特征。在提取出一些低层次特征之后,你可以应用机器学习算法在音频片段中找到音位,所以音位是声音的基本单位,比如说“Cat”这个词是三个音节构成的,Cu-、Ah-和Tu-,算法就把这三个音位提取出来,然后你将音位串在一起构成独立的词,然后你将词串起来构成音频片段的听写文本。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

nine_mink

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值