深度学习笔记NLP\RNN

本文介绍了深度学习在自然语言处理中的应用,特别是循环神经网络(RNN)、长短期记忆网络(LSTM)和注意力机制。讨论了RNN的梯度消失问题以及GRU和LSTM如何解决这个问题。还提到了双向RNN在NLP任务中的优势,并简述了机器翻译、情感分析和音乐生成等应用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文本分类概述(NLP)

浅拷贝与深拷贝

one-hot encoding 对应官方文档

共享数据

BRNN:双向神经网络

mang-to-many : x , y个数相同

情感分析: x=text,y=0/1 ----1~5star many-to-one

one -to-one

one-to-many 音乐生成,音乐类型或者输入音符,输出一段音乐。

m-to-n 机器翻译

注意力结构模型

语言模型the apple and pair/pear salad 语音识别,机器翻译 one-hot

建立概率模型,不针对无语料库字符

基于字符的语言模型,输出不是词汇,单独字符组成,优点:未知不担心。缺:太多太长序列,捕捉句子依赖关系不能捕捉长范围依赖关系;算力昂贵

基于词汇的语音模型

梯度消失:基础rnn模型

cat were cats

100层 后层很难影响前权重反向传播;不管很难处理长期依赖

梯度爆炸,网络参数崩溃,很容易发现,NAN或者不是数字,数值溢出:梯度修剪,大于阈值,缩放,比较鲁棒,梯度爆炸解决问题

梯度消失,层太多…

梯度消失 GRU 捕获更长的长期依赖 改变RNN隐藏层

softmax软化单元

c =memory cell 记忆细胞

ct等于at激活值,

gamma u门值 c更新记忆细胞值,gamma是否更新,猫饱了忘记

gamma f LSTM

GRU容易构建大网络,快

LSTM更强大,更优先

BRNN双向神经网络

NLP问题,文本句子完整,有LSTM单元的双向RNN模型

前向和反向,预测任意位置,需要完整序列才能预测位置,语音模型:都说完

一般有更复杂的模型

获取整个句子

深层RNN,RNN三层就不少了,时间维度很大,上面加循环层

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值