- 博客(36)
- 问答 (2)
- 收藏
- 关注
原创 全0初始化/全1初始化相关
具体来说,由于每层神经元的输入都相同,如果参数初始化为相同的值,那么这层所有神经元的输出都相同,反向传播时,由于loss相同,链式法则从后往前求导的一大坨都相同,输出相同,那么梯度相同,参数又被更新成相同的值,所以这层的神经元的输出梯度会永远相同,退化成1个神经元。其实多层和单层没有什么区别,只是每层的神经元个数是多个,且参数初始化又相同的话,就会由于对称性退化成1个神经元,表达能力受限。,全0或全1初始化,会由于神经网络的对称性,导致每层的神经元都退化成1个,表达能力坍塌。3. 多层和单层的区别?
2025-10-31 17:37:58
173
原创 面试面试面试
长期行为序列建模的方法采取一种两阶段的范式:GSU和ESU。两阶段的方法面临的主要问题是阶段一致性问题,即一阶段筛选出的行为,并不一定是二阶段所认为的高度相关的行为。如果一阶段不能精确的筛选行为,那么无论二阶段如何设计良好的attention机制,其效果也只能是次优的。MHTA 的各个计算环节涉及到Q、K、V的计算,以及Q、K的attention的计算,以及attention和V的计算几个过程。TWIN解决一致性问题的思路是如何提升MHTA的计算效率,减少计算量,从数百个序列长度扩展到数万个序列长度。
2025-10-19 22:44:06
554
原创 多目标面试最新论文
在 PLE 的基础上,进一步升级,使得专家网络的输出更符合每个任务的分布,同时兼顾每个任务之间的共性和差异性。1、expert 使用 BatchNormalization 和 Swish 激活函数,防止 expert 坍塌。利用这一先验知识将多个任务分成两组,使得不同组之间的 expert 值差异更加明显。3、作者发现一些数据稀疏任务的门权重很低,使得模型会忽略其特定的专家,因此作者提出了两种门机制,特征门和自用门机制,以确保它们能够获得适当的梯度以最大化其有效性。
2025-10-13 11:20:41
160
原创 长序列建模面试最新论文
长期行为序列建模的方法采取一种两阶段的范式:GSU和ESU。两阶段的方法面临的主要问题是,即一阶段筛选出的行为,并不一定是二阶段所认为的高度相关的行为。如果一阶段不能精确的筛选行为,那么无论二阶段如何设计良好的attention机制,其效果也只能是次优的这篇论文就提出了两阶段一致的终身行为序列建模方法,称为TWIN。
2025-10-13 11:05:22
593
原创 hot100的解析
②状态转移公式: f[i][j]=min(f[i-1][j],f[i][j-1])+w[i][j];②状态转移公式:f[i][j]=min(f[i][j-1]+1,f[i-1][j]+1,f[i-1][j-1]+(a[i]!②状态转移公式:f[i][j]=max(f[i-1][j-1],f[i-1][j],f[i][j-1],f[i-1][j-1]+1);②状态转移公式: f[i][j]=f[i-1][j]+f[i][j-1] 需满足(i-1,j)和(i,j-1)在表格内。
2025-10-10 22:17:10
985
原创 PCGrad解决多任务冲突
方面解释它是什么?PCGrad是一种优化策略,而非损失函数或模型架构。解决什么问题?解决多任务学习中的梯度冲突 (Gradient Conflict)问题。核心思想?梯度手术 (Gradient Surgery):在更新模型前,先检测并消除梯度之间的冲突部分。如何实现?通过向量投影,将冲突的梯度分量从原始梯度中移除,使它们变得正交。最终效果?1. 训练过程更稳定。2. 避免了任务间的“内耗”,有助于所有任务性能的同步提升。因此,当你看到代码中使用了PCGrad,就可以立刻明白:这个项目正在处理一个。
2025-09-16 11:14:30
1041
2
原创 计算复杂度
Pointwise MLP层(也叫Feed-Forward Network)通常是两个全连接层。所有这些预测的损失可以一次性计算并相加(当然,会使用损失掩码忽略掉负反馈等)。,Transformer可以并行地计算出所有时间步的预测结果。我们来推导为什么曝光粒度训练,每个用户的复杂度是。的序列,Self-Attention的开销主要是。的序列,MLP层的开销是。在生成式训练中,一个用户的。现在,我们来看HSTU的。所以,处理一个长度为。所以,处理一个长度为。根据等差数列求和公式。是MLP的隐藏维度。
2025-09-15 16:42:45
739
原创 自回归范式
查询(Query, Q)键(Key, K)和值(Value, V)。Q:代表当前Token发出的“查询”,想知道自己应该关注哪些其他的Token。K:代表每个Token的“可被查询”的属性,像一个标签。V:代表每个Token实际包含的信息,像标签后面的内容。一个Token的Q会和序列中所有Token的K进行计算,来决定从哪些Token的V中汲取信息。对于一个已经存在的Token,它的K和V向量是固定的,在后续的步骤中不会改变。KV Cache正是利用了这一点。特性朴素自回归流程。
2025-09-15 12:03:11
523
原创 YAML 配置文件
YAML 配置文件用于定义YAML 配置文件的核心作用是。通过修改这个配置文件,你可以轻松地实验不同的特征组合、嵌入维度、哈希空间大小等,而无需修改核心模型代码。
2025-09-11 16:17:40
275
原创 白名单客户
白名单客户”是指经过平台方(如巨量引擎、腾讯广告等)特殊审核和批准,被授予了一般客户所没有的权限或资格的广告主。这就像银行的“VIP室”或机场的“VIP通道”,普通客户无法进入,只有特定的贵宾客户可以享受特殊服务。
2025-09-11 10:59:22
253
原创 分桶校准(Bucket Calibration)
这个指令的意思就是:现在实验组和对照组出现了这种不均衡,我们需要用一种叫“分桶校准”的方法来修正它,然后再对结果进行分析。:通过数据分析,发现实验组和对照组的用户数量或用户画像存在显著不平衡。例如,实验组有60万用户,对照组只有40万。地分配到实验组(A桶)和对照组(B桶)。比如,50%的用户进入实验组,50%进入对照组。但在现实中,由于技术bug、流量分配策略问题、用户属性差异等原因,可能会导致分桶。在理想的A/B测试中,我们希望用户被。
2025-09-11 10:26:21
446
原创 激活函数Swish 和 SiLU
数学上历史上:Swish 是 Google 提出并命名的,SiLU 是后来框架标准化的名字。使用上:几乎所有深度学习框架实现的 SiLU = Swish(1)。
2025-09-09 20:44:35
218
原创 Query-Key Normalization for Transformers
简介:」 低资源语言翻译是一个具有挑战性但社会价值高的NLP任务。在最近针对这一设置调整Transformer规范化的工作基础上,作者提出了QKNorm,一种修改注意力机制的规范化技术,使得softmax函数不易受到任意饱和的影响,同时不牺牲表达能力。具体来说,作者在将查询和键矩阵相乘之前,沿着头部维度对它们应用ℓ2规范化,然后用一个可学习的参数进行放大,而不是除以嵌入维度的平方根。论文:Query-Key Normalization for Transformers。
2025-09-09 15:33:57
152
原创 tf.squeeze(output[:, idx, :], axis=[1])
如果不写 axis,即:tf.squeeze(output[:, idx, :])也能得到 [batch_size, hidden_dim],但区别在于:不指定 axis 会把所有为 1。得到的张量形状是 [batch_size, 1, hidden_dim](因为 idx 是个标量,但 TensorFlow 的切片保持维度时默认会在那一维留下长度为 1 的维度)。结果形状从 [batch_size, 1, hidden_dim] → [batch_size, hidden_dim]。
2025-08-26 21:04:51
246
原创 Tensorflow张量不能修改
Step4: sum 掉 expert_per_group 维度 -> [1, task_num, total_expert]# Step1: 构造一个全局 mask,用来定位每个 task 的 experts。# Step2: 把 self_weight_task 扩展,跟 mask 对齐。# Step5: broadcast 到 batch,直接加上去。# Step3: 乘 mask 得到稀疏展开。
2025-08-25 22:17:25
262
原创 python
集合1.difference_update(集合2):删除集合1内和集合2相同的元素,集合1被修改,集合2不变。3.类型转换:list(容器)、str(容器):输出啥样,转换成啥样、tuple(容器)、set(容器)新集合=集合1.difference(集合2):取出集合1和集合2的差集(集合1有而集合2没有的)新集合=集合1.union(集合2):将集合1和集合2组合成新集合。2.len()、min()、max() 其中dict比较的是key。element = 集合.pop() 从集合中。
2025-08-14 22:24:04
205
原创 回文词
回文词(UVa401)问题描述:输入一个字符串,判断它是否为回文串以及镜像串,输入字符串保证不含数字0。所谓回文串,就是反转以后和原串相同,如abba和madam。所谓镜像串,就是左右镜像之后和原串相同,如2S和3AIAE。注意,并不是每个字符在镜像之后都能得到一个合法字符。在本题中,每个字符的镜像如图所示。(空白项表示该字符镜像后不能得到一个合法字符)。输入的每行包含一个字符串(保证只有上述字符,不含有空白字符),判断它是否为回文串和镜像串(共4种组合)。每组数据之后输出一个空行。样例输入:NO
2021-01-27 14:44:21
294
原创 日期计算 节假日 一年有多少天放假
先算出该年所有的星期六星期日,根据节日的日期,算出当天星期几,加相应的天数。#include <iostream>#include <stdio.h>#include <string>#include <stdlib.h>#include <string.h>using namespace std;int isrun(int y)//该年的天数{ if(y%400==0||(y%100!=0&a...
2020-06-07 17:26:47
1023
原创 rational rose安装时出现的setup halted错误
由于网上授课的缘故,比正常上课早开学了一周,UML课程的老师让下载rational rose这个软件。首先,此次安装系统是windowa10家庭版。64位。老师把2003版本的rose放在协同云上,下载下来之后发现出现了setup halted的错误于是在优快云中搜索2007版本的安装教程,下载之后还是出现了这个错误,反反复复搞了一个下午。不仅把各种虚拟光驱下载了,然而都不行...
2020-03-04 09:24:49
2403
7
原创 1 勇者斗恶龙
题目网址https://www.luogu.com.cn/problem/UVA11292我写的代码 稚嫩 动态分配内存 没有考虑1<n,m<20000这个要求 排序是自己写的 在最后比较的时候用多的和少的比,会有while循环嵌套 不太好#include <iostream>using namespace std;int main(){ ...
2019-12-29 12:25:52
291
转载 C++ String类用法
https://blog.youkuaiyun.com/samkieth/article/details/50876347
2018-06-10 11:40:20
220
转载 首篇:C++值传递、指针传递、引用传递
C++课上的冯老师具有令人走神催眠的效果,于是乎写下这篇文章时刻让自己明白自学的力量。也警示好好听课的重要性。言归正传:https://www.cnblogs.com/dingxiaoqiang/p/8012578.html...
2018-06-08 13:24:01
162
空空如也
如何修改能够比较string类型的大小
2018-10-23
Creat函数为什么会错呢?
2018-10-23
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅