神经网络
文章平均质量分 91
deardao
昵称为同名微信号,有合作交流的可与我联系
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【AAAI-26:时序概念漂移】DeepBooTS:用于时序漂移的双流残差增强
DeepBooTS 是针对时间序列预测中概念漂移问题,核心创新包括输入与标签双流分解、逐层残差校正及门控系数自适应,在多元、单变量及大规模数据集上均超越18种SOTA方法,实现 15.8% 的平均性能提升,兼具通用性、解释性及深度扩展性。原创 2025-12-13 16:23:30 · 979 阅读 · 0 评论 -
【顶刊TPAMI 2025】多头编码(MHE)之Part 6:极限分类无需预处理
对于极限分类问题,标签预处理技术,如标签层级树(HLT)和标签聚类(LC),是不必要的,因为低秩近似仍然独立于标签定位。这不仅可以显著提高训练推理速度,而且可以实现多gpu并行加速。其次,当标签与数据过拟合时,模型泛化与标签的语义无关。原创 2025-01-04 23:14:24 · 1453 阅读 · 0 评论 -
【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 3:算法实现
多头编码(MHE)的三种算法实现。多头乘积(MHP)用于极限单标签分类,多头级联(MHC)用于极限多标签分类,多头采样(MHS)用于大型预训练模型。原创 2025-01-04 16:55:42 · 1684 阅读 · 0 评论 -
【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 1:背景动机
在多头编码中,在训练期间将标签分解到多头分类器的输出上,并在测试中组合输出以获得预测标签。与上述方法不同的是,如图1所示,我们将原始分类器分解为多个头,并将极端标签概念化为高维空间中的点。在训练过程中,极端标签的坐标分量对应于每个头的局部标签。这个过程涉及将极端标签分解为多个局部标签的乘积,从而几何地减少极端标签的编码长度。测试时,每个头贡献一个坐标分量,形成高维空间中的一个点,可以将其投影到整数轴上以获得极值标签。原创 2025-01-04 12:22:43 · 1787 阅读 · 0 评论 -
连续token+随机生成:视觉大模型的高效Scaling!
FID(越低越好)是在MS-COCO 2014训练集中随机抽样的30K图像上进行评估的,而GenEval总分(越高越好)是使用官方基准提供的553个提示进行评估的,每个提示生成4个图像。在所有模型中,连续令牌上的随机顺序模型随着模型大小的增加而持续显示评估指标的改进,并获得最佳的FID和GenEval分数。我们使用连续令牌的随机顺序模型。更重要的是,随着参数量和训练轮数的增加,模型在验证损失、FID、GenEval Score等指标上表现出良好的可扩展性,为进一步扩大规模提供了理论支撑。原创 2024-11-10 17:23:11 · 324 阅读 · 0 评论 -
【KDD2025 不确定性量化、分布预测】DistPred:回归与预测的无分布概率推理方法
可端到端训练的概率推理模型,能在单个前向中推断大量样本,以估计响应变量的潜在分布。原创 2024-06-19 12:03:56 · 3330 阅读 · 5 评论 -
基于保形预测的非参数预测分布
本文应用保形预测导出了在非参数假设下有效的预测分布。也就是说,我们引入并探索预测分布函数,这些函数总是满足IID观测值在保证覆盖方面的有效性的自然属性。重点是一种预测算法,我们称之为最小二乘预测机(LSPM)。LSPM将经典的Dempster-Hill预测分布推广到回归问题。如果最小二乘线性回归的标准参数假设成立,那么在自然意义上,LSPM与Dempster-Hill过程一样有效。如果这些参数假设不成立,LSPM仍然有效,只要观测值是IID。原创 2024-10-09 09:39:40 · 783 阅读 · 0 评论 -
混合密度网络Mixture Density Networks(MDN)
平方和或交叉熵误差函数的最小化导致网络输出近似目标数据的条件平均值,以输入向量为条件。对于分类问题,只要选择合适的目标编码方案,这些平均值表示类隶属度的后验概率,因此可以认为是最优的。然而,对于涉及连续变量预测的问题,条件平均只能对目标变量的性质提供非常有限的描述。对于要学习的映射是多值的问题尤其如此,就像反问题的解中经常出现的那样,因为几个正确目标值的平均值本身不一定是正确的值。为了获得数据的完整描述,为了预测与新输入向量对应的输出,我们必须对目标数据的条件概率分布进行建模,同样以输入向量为条件。原创 2024-08-04 11:03:01 · 1571 阅读 · 0 评论
分享