return1999-优快云博客

原创 GradNorm

(99+ 封私信 / 80 条消息) GradNorm - 搜索结果 - 知乎

2025-11-09 21:16:49 124

具体来说，由于每层神经元的输入都相同，如果参数初始化为相同的值，那么这层所有神经元的输出都相同，反向传播时，由于loss相同，链式法则从后往前求导的一大坨都相同，输出相同，那么梯度相同，参数又被更新成相同的值，所以这层的神经元的输出梯度会永远相同，退化成1个神经元。其实多层和单层没有什么区别，只是每层的神经元个数是多个，且参数初始化又相同的话，就会由于对称性退化成1个神经元，表达能力受限。，全0或全1初始化，会由于神经网络的对称性，导致每层的神经元都退化成1个，表达能力坍塌。3. 多层和单层的区别？

2025-10-31 17:37:58 174

原创特征交叉的一些方法

2025-10-21 15:01:06 218

原创面试面试面试

长期行为序列建模的方法采取一种两阶段的范式：GSU和ESU。两阶段的方法面临的主要问题是阶段一致性问题，即一阶段筛选出的行为，并不一定是二阶段所认为的高度相关的行为。如果一阶段不能精确的筛选行为，那么无论二阶段如何设计良好的attention机制，其效果也只能是次优的。MHTA 的各个计算环节涉及到Q、K、V的计算，以及Q、K的attention的计算，以及attention和V的计算几个过程。TWIN解决一致性问题的思路是如何提升MHTA的计算效率，减少计算量，从数百个序列长度扩展到数万个序列长度。

2025-10-19 22:44:06 556

原创多目标面试最新论文

在 PLE 的基础上，进一步升级，使得专家网络的输出更符合每个任务的分布，同时兼顾每个任务之间的共性和差异性。1、expert 使用 BatchNormalization 和 Swish 激活函数，防止 expert 坍塌。利用这一先验知识将多个任务分成两组，使得不同组之间的 expert 值差异更加明显。3、作者发现一些数据稀疏任务的门权重很低，使得模型会忽略其特定的专家，因此作者提出了两种门机制，特征门和自用门机制，以确保它们能够获得适当的梯度以最大化其有效性。

2025-10-13 11:20:41 161

原创长序列建模面试最新论文

长期行为序列建模的方法采取一种两阶段的范式：GSU和ESU。两阶段的方法面临的主要问题是，即一阶段筛选出的行为，并不一定是二阶段所认为的高度相关的行为。如果一阶段不能精确的筛选行为，那么无论二阶段如何设计良好的attention机制，其效果也只能是次优的这篇论文就提出了两阶段一致的终身行为序列建模方法，称为TWIN。

2025-10-13 11:05:22 595

原创 hot100的解析

②状态转移公式： f[i][j]=min(f[i-1][j],f[i][j-1])+w[i][j];②状态转移公式：f[i][j]=min(f[i][j-1]+1,f[i-1][j]+1,f[i-1][j-1]+(a[i]!②状态转移公式：f[i][j]=max(f[i-1][j-1],f[i-1][j],f[i][j-1],f[i-1][j-1]+1);②状态转移公式： f[i][j]=f[i-1][j]+f[i][j-1] 需满足(i-1,j)和(i,j-1)在表格内。

2025-10-10 22:17:10 986

原创 K-means实现

【代码】K-means实现。

2025-10-01 21:21:53 119

原创 PCGrad解决多任务冲突

方面解释它是什么？PCGrad是一种优化策略，而非损失函数或模型架构。解决什么问题？解决多任务学习中的梯度冲突 (Gradient Conflict)问题。核心思想？梯度手术 (Gradient Surgery)：在更新模型前，先检测并消除梯度之间的冲突部分。如何实现？通过向量投影，将冲突的梯度分量从原始梯度中移除，使它们变得正交。最终效果？1. 训练过程更稳定。2. 避免了任务间的“内耗”，有助于所有任务性能的同步提升。因此，当你看到代码中使用了PCGrad，就可以立刻明白：这个项目正在处理一个。

2025-09-16 11:14:30 1042 2

原创计算复杂度

Pointwise MLP层（也叫Feed-Forward Network）通常是两个全连接层。所有这些预测的损失可以一次性计算并相加（当然，会使用损失掩码忽略掉负反馈等）。，Transformer可以并行地计算出所有时间步的预测结果。我们来推导为什么曝光粒度训练，每个用户的复杂度是。的序列，Self-Attention的开销主要是。的序列，MLP层的开销是。在生成式训练中，一个用户的。现在，我们来看HSTU的。所以，处理一个长度为。所以，处理一个长度为。根据等差数列求和公式。是MLP的隐藏维度。

2025-09-15 16:42:45 739

原创自回归范式

查询（Query, Q）键（Key, K）和值（Value, V）。Q：代表当前Token发出的“查询”，想知道自己应该关注哪些其他的Token。K：代表每个Token的“可被查询”的属性，像一个标签。V：代表每个Token实际包含的信息，像标签后面的内容。一个Token的Q会和序列中所有Token的K进行计算，来决定从哪些Token的V中汲取信息。对于一个已经存在的Token，它的K和V向量是固定的，在后续的步骤中不会改变。KV Cache正是利用了这一点。特性朴素自回归流程。

2025-09-15 12:03:11 523

原创 HSTU面试问题背诵

a_i∅。

2025-09-15 11:49:58 402

原创 YAML 配置文件

YAML 配置文件用于定义YAML 配置文件的核心作用是。通过修改这个配置文件，你可以轻松地实验不同的特征组合、嵌入维度、哈希空间大小等，而无需修改核心模型代码。

2025-09-11 16:17:40 275

原创白名单客户

白名单客户”是指经过平台方（如巨量引擎、腾讯广告等）特殊审核和批准，被授予了一般客户所没有的权限或资格的广告主。这就像银行的“VIP室”或机场的“VIP通道”，普通客户无法进入，只有特定的贵宾客户可以享受特殊服务。

2025-09-11 10:59:22 253

原创分桶校准（Bucket Calibration）

这个指令的意思就是：现在实验组和对照组出现了这种不均衡，我们需要用一种叫“分桶校准”的方法来修正它，然后再对结果进行分析。：通过数据分析，发现实验组和对照组的用户数量或用户画像存在显著不平衡。例如，实验组有60万用户，对照组只有40万。地分配到实验组（A桶）和对照组（B桶）。比如，50%的用户进入实验组，50%进入对照组。但在现实中，由于技术bug、流量分配策略问题、用户属性差异等原因，可能会导致分桶。在理想的A/B测试中，我们希望用户被。

2025-09-11 10:26:21 446

原创快手HOME

2025-09-10 12:00:53 345

原创激活函数Swish 和 SiLU

数学上历史上：Swish 是 Google 提出并命名的，SiLU 是后来框架标准化的名字。使用上：几乎所有深度学习框架实现的 SiLU = Swish(1)。

2025-09-09 20:44:35 218

原创 Query-Key Normalization for Transformers

简介：」低资源语言翻译是一个具有挑战性但社会价值高的NLP任务。在最近针对这一设置调整Transformer规范化的工作基础上，作者提出了QKNorm，一种修改注意力机制的规范化技术，使得softmax函数不易受到任意饱和的影响，同时不牺牲表达能力。具体来说，作者在将查询和键矩阵相乘之前，沿着头部维度对它们应用ℓ2规范化，然后用一个可学习的参数进行放大，而不是除以嵌入维度的平方根。论文：Query-Key Normalization for Transformers。

2025-09-09 15:33:57 152

原创 SIM论文解析

https://zhuanlan.zhihu.com/p/1919557828638652163

2025-09-09 10:34:58 107

原创权重转换为 tf.float32的原因

将权重明确转换为tf.float32。

2025-09-07 11:21:58 238

原创推荐系统的bias

https://zhuanlan.zhihu.com/p/428037218

2025-09-03 14:18:04 281

原创 tanh激活函数

2025-09-01 15:12:00 404

原创工程算法与策略算法

工程算法做什么策略算法做什么两者关系与协同。

2025-08-29 17:04:55 199

原创生成式推荐（一）：HSTU

在十亿级用户规模下，在现代推荐系统采用替代性的建模形式需要克服三大挑战。

2025-08-29 17:04:12 1187

原创分布式训练PS

这是一个分布式训练的“角色/副本资源配置”界面。每一行是一个训练角色，每个角色下的字段用来定义它要用多少计算资源。

2025-08-28 16:27:56 143

原创 tf.squeeze(output[:, idx, :], axis=[1])

如果不写 axis，即：tf.squeeze(output[:, idx, :])也能得到 [batch_size, hidden_dim]，但区别在于：不指定 axis 会把所有为 1。得到的张量形状是 [batch_size, 1, hidden_dim]（因为 idx 是个标量，但 TensorFlow 的切片保持维度时默认会在那一维留下长度为 1 的维度）。结果形状从 [batch_size, 1, hidden_dim] → [batch_size, hidden_dim]。

2025-08-26 21:04:51 247

原创 Tensorflow张量不能修改

Step4: sum 掉 expert_per_group 维度 -> [1, task_num, total_expert]# Step1: 构造一个全局 mask，用来定位每个 task 的 experts。# Step2: 把 self_weight_task 扩展，跟 mask 对齐。# Step5: broadcast 到 batch，直接加上去。# Step3: 乘 mask 得到稀疏展开。

2025-08-25 22:17:25 262

原创二叉树中序遍历非递归

【代码】二叉树中序遍历非递归。

2025-08-22 11:39:27 84

原创 python

集合1.difference_update(集合2)：删除集合1内和集合2相同的元素，集合1被修改，集合2不变。3.类型转换:list(容器)、str(容器)：输出啥样，转换成啥样、tuple(容器)、set(容器)新集合=集合1.difference(集合2)：取出集合1和集合2的差集（集合1有而集合2没有的）新集合=集合1.union(集合2)：将集合1和集合2组合成新集合。2.len()、min()、max() 其中dict比较的是key。element = 集合.pop() 从集合中。

2025-08-14 22:24:04 205

原创回文词

回文词（UVa401）问题描述：输入一个字符串，判断它是否为回文串以及镜像串，输入字符串保证不含数字0。所谓回文串，就是反转以后和原串相同，如abba和madam。所谓镜像串，就是左右镜像之后和原串相同，如2S和3AIAE。注意，并不是每个字符在镜像之后都能得到一个合法字符。在本题中，每个字符的镜像如图所示。(空白项表示该字符镜像后不能得到一个合法字符）。输入的每行包含一个字符串（保证只有上述字符，不含有空白字符），判断它是否为回文串和镜像串（共4种组合）。每组数据之后输出一个空行。样例输入：NO

2021-01-27 14:44:21 294

return1999的博客