- 博客(13)
- 收藏
- 关注
原创 中文地址解析
-- coding: utf-8 --import torchimport reimport numpy as npfrom collections import defaultdict“”"模型效果测试“”"class Evaluator:def init(self, config, model, logger):self.config = configself.model = modelself.logger = loggerself.valid_data = load_data(
2023-07-11 22:02:29
254
原创 Transformer 面试问题
3.Transformer计算attention的时候为何选择点乘而不是加法?两者计算复杂度和效果上有什么区别?2.Transformer为什么Q和K使用不同的权重矩阵生成,为何不能使用同一个值进行自身的点乘?答案:多头保证了Transformer可以注意到不同子空间的信息,捕捉到更加丰富的特征信息。使用Q/K/V不相同可以保证在不同空间进行投影,增强了表达能力,提高了泛化能力。1、Transformer为何使用多头注意力机制?(为什么不使用一个头)?
2023-07-01 15:46:38
559
原创 LSTM 详细理解
全称 Long Short Term Memory (长短期记忆) 是一种循环神经网络,LSTM可以利用时间序列对输入进行分析。
2023-06-27 13:52:04
499
原创 transformers
Multi-Head AttentionScaledDotProductAttention: attn = q*k.T/temperaturetemperature = 64
2023-06-17 13:15:44
95
原创 Transformer&Bert self-attention multi-heads
Self-Attention 层:使用Q,K,V(q_w, k_w, v_w)三个权重矩阵分别对输入X进行linear全连接层。隐藏层hidden_size 为768, num_attention_heads为12,所有attention_head_size 为64, max_length为输入X的长度,为4(假设输入 x = np.array([2450, 15486, 15167, 2110]))。
2023-06-17 06:51:26
150
原创 python 函数随记
不启用 BatchNormalization 和 Dropout,保证BN和dropout不发生变化,pytorch框架会自动把BN和Dropout固定住,不会取平均,而是用训练好的值,不然的话,一旦test的batch_size过小,很容易就会被BN层影响结果。切断一些分支的反向传播,返回一个新的tensor,从当前计算图中分离下来的,但是仍指向原变量的存放位置,不同之处只是requires_grad为false,得到的这个tensor永远不需要计算其梯度,不具有grad。
2023-03-29 09:33:17
110
原创 python 中数组标准化函数StandardScaler
Python中StandardScalerfrom sklearn.preprocessing import StandardScalersc = StandardScaler()x = sc.fit_transform(x)一: 数组x标准化公式为数组,为数组x的平均值,为数组x的标准差,则标准化的公式为:import numpy as npfrom sklearn.preprocessing import StandardScalersc = StandardScaler().
2022-05-22 08:54:15
7422
原创 python归一化函数MinMaxScaler的理解
"""python归一化函数MinMaxScaler的理解class sklearn.preprocessing.MinMaxScaler(feature_range=0, 1, *, copy=True)"""from sklearn.preprocessing import MinMaxScalerimport numpy as npx = np.array([[1., -1., 2.], [2., 0., 0.], [0., 1.,.
2021-05-09 14:23:49
5857
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人