- 博客(34)
- 收藏
- 关注
原创 注意力机制
注意力机制引入了显示的考虑随机线索(即有偏向性的选择某些输入)引入了三个概率:query(随机线索):想要查询的信息key(不随机线索):本身所具有的属性value(值):这个属性所对应的价值注:key和value可以相同,也可以不相同。。例如某物的价值因人而异。
2023-12-08 15:52:08
279
原创 seq2seq
2.encoder中最后一个RNN层的hidden输出与decoder的input的embedding拼接在一起作为decoder的输入(即decoder的输入大小为:embedding size + hidden size)1.encoder每一RNN层最后的hidden输出作为decoder的初始hidden。seq2seq代表着一种算法结构,是一种模型。
2023-12-07 18:41:27
108
原创 LSTM——长短期记忆网络
通过Ft来控制对过去数据的遗忘程度,通过It来控制对当下输入数据的遗忘程度,使得网络更加灵活。与GRU相比,LSTM网络结构把对过去数据的遗忘程度和对当下输入数据的遗忘程度。记忆单元(相当于个“日记本”):这里可通过It来决定是否忽略当前输入数据。Ot(输出门):决定是否使用当前计算出来的隐状态。It(输入门):决定是不是忽略输入数据。Ft(忘记门):决定是否忘记以前的状态。候选记忆单元:相当于获得当前输入。
2023-11-30 15:14:35
143
原创 GRU-门控循环单元
背景:在RNN结构中,当序列较长时,较远端的信息容易被遗忘。而对于一个序列,并不是每个位置的关注度(重要程度)都是一样的。引入两个概念:Rt(重置门):能遗忘的机制Zt(更新门):能关注的机制Rt和Zt的取值范围均为 [0,1]计算公式:都有自己对应的可学习权重参数,激活函数是sigmoid函数。本质也是一个向量,其候选隐藏状态:中间表示对应元素相乘,越靠近0,说明该位置越容易被遗忘当前隐藏状态的计算:Zt控制了隐藏状态的更新。
2023-11-29 21:10:29
155
原创 批量归一化
由于归一化操作会强行把输出拉到均值为0方差为1的标准正态分布上,这使得模型的拟合能力变差,此时通过这两个参数的学习,对x进行合适的缩放和偏移,可弥补这一情况。此处引入了两个可学习参数γ、β。,且不怎么影响模型的精度。
2023-11-17 00:08:03
83
原创 AlexNet深度卷积神经网络
与LeNet相比,AlexNet具有以下新加入的东西:1.激活函数选择了ReLU函数,跟sigmoid相比,其缓解了梯度消失的现象2.加入了丢弃法(dropout)3.池化层选择了最大池化层4.数据增强操作,将不同情况下的数据也加入到训练中(例如不同的色温、不同的亮度、随机截取一部分作为输入等),给模型”脱敏“,因为卷积对位置敏感。
2023-11-13 15:36:06
105
原创 Transformer
它在每个样本的所有特征上进行归一化,使得输出的均值为0,标准差为1。Q,K,V是由输入的词向量x经过线性变换得到的,其中各个矩阵w可以经过学习得到, 这种变换可以提升模型的拟合能力, 得到的Q,K,V 可以理解为。但如果引入Attention,就需要将这组V分别乘以一组权重α \alphaα,那么就可以做到有重点性地关注输入特征,如同人的注意力一般。当我们直接把一组V输入到网络中进行训练,那这个网络就是没有引入Attention机制的网络。,但目前我们现在无需关注是如何产生这组向量的。
2023-10-29 22:56:56
89
原创 丢弃法(Pytorch)
丢弃法本质是个正则化项,可用于解决过拟合问题其中Xi撇是对每个输入Xi处理后得到的值,经过这样的处理后,Xi撇的期望与Xi相等。
2023-10-19 17:12:34
97
原创 权重衰减(PyTorch)
解决过拟合问题,通过给损失函数增加一个“惩罚项”,来减小权重w的取值范围,从而降低模型复杂度带有L2范数正则化项的新损失函数为: 因此,根据随机梯度下降算法,每次w的更新如下(通常 学习率×lambd
2023-10-17 21:36:02
95
原创 Softmax函数解决分类问题(PyTorch)
定义神经网络模型net = nn.Sequential(nn.Flatten(), nn.Linear(784,10))# 有两层,第一层为展平层,第二层为输入784,输出10的线性层#初始化神经网络的参数def init_weights(m):# m为神经网络里的layernn.init.normal_(m.weights, std=0.01)# 权重初始化平均值为0,方差为0.01的正态分布,默认平均值为0net.apply(init_weights)# 神经网络里的每一层都调用这个函数。
2023-10-12 16:54:31
355
原创 线性回归-梯度下降算法(PyTorch)
定义神经网络模型'''from torch import nn # 需要导入的包,nn为神经网络的缩写对于标准深度学习模型,我们可以使用框架的预定义好的层。首先定义一个模型变量Net,它是一个Sequential类的实例,Sequential类将多个层串联在一起。当给定输入数据时,Sequential实例将数据传入到第一层中,然后将第一层的输出作为第二层的输入'''net = nn.Sequential(nn.Linear(2,1))# 两个输入,一个输出。
2023-10-09 20:16:49
179
1
原创 jieba中文分词
用于某些无法识别的特定名词jieba.load_userdict('绝对路径')# 注意需要txt文件,且是UTF-8编码# 也可以用 jieba.add_word('词语') 来添加特定词汇注意事项:1. 词典中一行包括:词语、频率、词性。2. 文件最好使用 utf-8 编码,不要用 window 自带的记事本编辑,可以用 notepad++ 等软件。3. jieba.load_userdict(file_name) 必须在 jieba.cut 之前执行。
2023-10-03 16:58:53
97
1
原创 NLP——NLTK工具包
目录分词停用词过滤词性标注命名实体识别下载相对应的模块:import nltknltk.download()导入包:分词操作:停用词过滤导入包:停用词过滤操作:词性标注导入包:词性标注操作:命名实体识别导入包:实体识别操作:
2023-10-01 20:27:34
147
原创 Android开发——ContentProvider
ContentProvider能够实现不同应用程序之间的数据共享1.需要用到的帮助类1)UriURI(统一资源标识符)代表要操作的数据,可以用来标识每个ContentProvider,这样你就可以通过指定的URI找到想要的ContentProvider,从中获取或修改数据。由URI来决定操作对哪个数据源进行!!A:schema,已经由Android所规定为:content:// B:主机名(Authority),是URI的授权部分,是唯一标识符,用来定位ContentProvider.
2022-05-25 22:31:22
275
原创 统计学前八章选择题
第一章 绪论1.答案:D数据按照计量尺度分可分为”分类数据“和”数值数据“分类数据:只能归于某一类的非数值型数值,根据取值是否有序可分为无序分类数据和有序分类数据数值数据:具体的数值,根据取值情况可分为离散数据和连续数据,离散数据的取值是有限的;连续数据的取值固定在某一区间,且该区间的数值连续不断2.答案:A 解析看上3.答案: B总体为B,样本为A,参数为D,统计量为C注意:”参数“针对 ”总体“;”统计量“针对”样本“4.答案:A
2022-05-10 00:06:35
1461
原创 计算机组成原理——期末习题
一、总线1.总线带宽:总线的数据传送速率,即单位时间内总线上传输数据的位数时钟频率:每秒有多少个时钟周期总线工作频率:每秒传送多少次数据先根据时钟频率求工作频率,带宽=工作频率×每次传输的字节数2.突发传输:是指在同一行中对相邻的存储单元连续进行数据传输的方式,连续传输的周期就是突发长度(Burst Length,一般为4或8)。在进行突发传输时,只需指定起始列地址与突发长度,内存就会依次地自动对后面相应数量的存储单元进行读/写操作,而不再需要控制器提供列地.
2022-05-03 22:59:01
2378
1
原创 Android开发——存储
一、SharedPreferences保存基于XML文件存储的key-value键值对数据,通常用来存储一些简单的配置信息。是一个较轻量级的存储数据的方法,适用范围:保存少量的数据,且这些数据的格式非常简单:字符串型、基本类型的值。默认存储路径:/data/data/<PackageName>/shared_prefs注意事项:1.SharedPreferences对象本身只能获取数据而不支持存储和修改,存储修改是通过SharedPreferences.edit()获取的
2022-05-03 11:33:47
1185
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人