
深度学习
文章平均质量分 79
deardao
昵称为同名微信号,有合作交流的可与我联系
展开
-
计算机领域部分顶级会议排名
计算机顶会排名原创 2025-04-29 11:15:04 · 399 阅读 · 0 评论 -
【顶刊TPAMI 2025】多头编码(MHE)之Part 6:极限分类无需预处理
对于极限分类问题,标签预处理技术,如标签层级树(HLT)和标签聚类(LC),是不必要的,因为低秩近似仍然独立于标签定位。这不仅可以显著提高训练推理速度,而且可以实现多gpu并行加速。其次,当标签与数据过拟合时,模型泛化与标签的语义无关。原创 2025-01-04 23:14:24 · 1244 阅读 · 0 评论 -
【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 3:算法实现
多头编码(MHE)的三种算法实现。多头乘积(MHP)用于极限单标签分类,多头级联(MHC)用于极限多标签分类,多头采样(MHS)用于大型预训练模型。原创 2025-01-04 16:55:42 · 1574 阅读 · 0 评论 -
【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 1:背景动机
在多头编码中,在训练期间将标签分解到多头分类器的输出上,并在测试中组合输出以获得预测标签。与上述方法不同的是,如图1所示,我们将原始分类器分解为多个头,并将极端标签概念化为高维空间中的点。在训练过程中,极端标签的坐标分量对应于每个头的局部标签。这个过程涉及将极端标签分解为多个局部标签的乘积,从而几何地减少极端标签的编码长度。测试时,每个头贡献一个坐标分量,形成高维空间中的一个点,可以将其投影到整数轴上以获得极值标签。原创 2025-01-04 12:22:43 · 1662 阅读 · 0 评论 -
【KDD2025 不确定性量化、分布预测】DistPred:回归与预测的无分布概率推理方法
可端到端训练的概率推理模型,能在单个前向中推断大量样本,以估计响应变量的潜在分布。原创 2024-06-19 12:03:56 · 2532 阅读 · 5 评论 -
基于保形预测的非参数预测分布
本文应用保形预测导出了在非参数假设下有效的预测分布。也就是说,我们引入并探索预测分布函数,这些函数总是满足IID观测值在保证覆盖方面的有效性的自然属性。重点是一种预测算法,我们称之为最小二乘预测机(LSPM)。LSPM将经典的Dempster-Hill预测分布推广到回归问题。如果最小二乘线性回归的标准参数假设成立,那么在自然意义上,LSPM与Dempster-Hill过程一样有效。如果这些参数假设不成立,LSPM仍然有效,只要观测值是IID。原创 2024-10-09 09:39:40 · 674 阅读 · 0 评论 -
设计普遍逼近的深度神经网络:一阶优化方法
传统的基于优化的神经网络设计方法通常从一个具有显式表示的目标函数出发,采用特定的优化算法进行求解,再将优化迭代格式映射为神经网络架构,例如著名的 LISTA-NN 就是利用 LISTA 算法求解 LASSO 问题所得 [4],这种方法受限于目标函数的显式表达式,可设计得到的网络结构有限。一些研究者尝试通过自定义目标函数,再利用算法展开等方法设计网络结构,但他们也需要如权重绑定等与实际情况可能不符的假设。论文地址:https://ieeexplore.ieee.org/document/10477580。原创 2024-04-27 10:22:26 · 263 阅读 · 0 评论 -
einsum和matmul的结果对比实验
程序:import torchimport torch.nn as nnt=torch.randn((2,3,2))w=torch.randn((3,2))einsum = torch.einsum('ijk,js->isk',t,w)print(einsum.shape,'einsum shape')print(einsum)t_T=t.transpose(2,1)result = torch.matmul(t_T,w).transpose(2,1)print(result.原创 2021-03-17 08:54:23 · 1203 阅读 · 0 评论 -
TensorFlow 和 Pytorch 中交叉熵 Cross Entropy Loss 的代码实现和手动实现方式
目录TensorFlow中交叉熵的实现手动实现调库实现对比结果输出结果Pytorch中交叉熵的实现TensorFlow中交叉熵的实现手动实现import tensorflow as tf# logits 为输出层输出logits = tf.constant([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0], [7.0, 8.0, 9.0]])# softmaxsof...原创 2020-04-07 15:36:26 · 3325 阅读 · 0 评论 -
机器学习之优化算法(二)之梯度下降及收敛性分析
确定性优化算法和随即优化算法是有明显的分界线的。如果加上分布式集群上的实现方式,就可以分为同步或异步的算法。从梯度下降(GD)后,20世纪50年代,各种一阶算法井喷,其中 SGD 也是这个时候的产物。梯度下降(GD)是柯西(Cauchy )大神的1847年提出的。其基本思想是...原创 2019-09-18 19:08:19 · 8811 阅读 · 3 评论 -
机器学习之优化算法(一)之损失函数
损失函数损失函数被称为 cost function, object function, loss function等,这里不区分几种用法的微小区别。机器学习离不开目标函数,我们分析一下目标函数:其中,前一项是经验风险,后一项是结构风险。前者是为了增加 ML 对已有系统的 fitting,后者是尽量减少 ML 模型的复杂度,以避免 overfitting。整个损失函数称为正则化经验风险最小化...原创 2019-09-18 19:06:56 · 1985 阅读 · 0 评论 -
分布式机器学习(一)之总体概述
大数据,大模型,高算法的时代到来了,在本系列 Blog 里,主要介绍如何使用分布式机器学习算法(高性能集群)来训练拥有大规模参数的机器学习模型。分布式机器学习就是解决怎样协调和利用大量的 GPU 集群,来完成深度学习模型的训练和获取好的收敛,达到相对高的性能。分布式机器学习涉及如何分配训练任务,调配计算资源,协调各个功能模块,以达到训练速度与精度的平衡。原创 2019-09-15 22:32:00 · 24230 阅读 · 4 评论 -
LCA: Loss Change Allocation for Neural Network Training (神经网络在训练过程中的损失变化分配)
经验告诉我们,随着网络的训练,损失是会下降的(假设所有设计都正确),损失函数的变化指示着算法的收敛性和网路的学习过程。然而,当我们把总体的损失函数分配到网络中的每一个参数上,来具体测量损失在每个参数上的变化程度,结果会怎样?这篇文章,就是基于这样的思路,对每层、没通道甚至没个神经元的损失变化情况进行了测量,该方法将得到那些有意思的结论呢?原创 2019-09-13 21:56:12 · 675 阅读 · 0 评论