静静喜欢大白
专注于GNN在交叉领域前沿技术学习与分享、中科院博士一枚、喜欢运动、美食和乐高
展开
-
【KD】2023 NeurIPS Does Graph Distillation See Like Vision Dataset Counterpart?
面向图数据的蒸馏目前仍为一个较新的方向,我们的研究着眼于图结构保持对图数据蒸馏的重要性,期望此工作能够引起领域对该方向更多的研究和探讨。原创 2024-01-23 15:02:03 · 409 阅读 · 0 评论 -
【KD】2023 ICML Linkless Link Prediction via Relational Distillation
本质就是关系知识蒸馏引入。原创 2023-08-16 20:06:47 · 426 阅读 · 0 评论 -
【KD】小白入门知识蒸馏代码实践指南
经典KD蒸馏代码整理汇总翻译 2023-07-19 15:33:27 · 252 阅读 · 0 评论 -
【KD】2023 ICLR The Modality Focusing Hypothesis: Towards Understanding Crossmodal Knowledge Distillat
ICLR 2023 | 模态聚焦假说:对跨模态知识蒸馏的理解翻译 2023-07-17 11:48:50 · 318 阅读 · 0 评论 -
2023 ACL Tailoring Instructions to Student‘s Learning Levels Boosts Knowledge Distillation
ACL 2023 | 为学生模型的学习水平量身定制指导,促进知识蒸馏的效果原创 2023-06-06 18:25:30 · 160 阅读 · 0 评论 -
【KD+NAS】2023 CVPR DisWOT: Student Architecture Search for Distillation WithOut Training
CVPR 2023 | DisWOT:给老师找个好学生?KD和NAS的高效组合翻译 2023-04-18 15:20:55 · 749 阅读 · 1 评论 -
2023 ICLR HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained Transformers
HomoDistil:蒸馏和剪枝在知识传递上的有机结合翻译 2023-04-10 14:58:40 · 293 阅读 · 0 评论 -
2023 WWW Adap-: Adaptively Modulating Embedding Magnitude for Recommendation
如何设置温度系数?用于推荐的自适应调节表征模长的方法翻译 2023-04-10 11:52:22 · 196 阅读 · 0 评论 -
2023 ICLR The Augmented Image Prior: Distilling 1000 Classes by Extrapolating from a Single Image
基于数据增广和知识蒸馏的单一样本训练算法翻译 2023-03-29 13:32:51 · 158 阅读 · 0 评论 -
2023 ICLR SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised Learning
实现半监督学习中伪标签的质量和数量的trade-off翻译 2023-03-23 10:41:19 · 421 阅读 · 0 评论 -
【KD】2022 NeurIPS Respecting Transfer Gap in Knowledge Distillation
NeurIPS 2022 | 知识蒸馏造成了样本不均衡问题?翻译 2023-03-09 15:00:06 · 181 阅读 · 0 评论 -
【KD】What Makes a “Good“ Data Augmentation in Knowledge Distillation -- A Statistical Perspective
NeurIPS 2022 通过统计学视角度量知识蒸馏中不同数据增强方法的优劣翻译 2023-02-27 10:03:39 · 248 阅读 · 0 评论 -
【KD】2023 AAAI Oral Open-Vocabulary Multi-Label Classification via Multi-Modal Knowledge Transfer
如何识别未知标签?多模态知识迁移框架实现新SOTA翻译 2023-02-17 09:48:36 · 353 阅读 · 0 评论 -
2023 AAAI Curriculum Temperature for Knowledge Distillation
动态温度超参蒸馏新方法翻译 2023-02-08 11:49:16 · 327 阅读 · 0 评论 -
Tf-KD:从标签平滑正则化的角度理解知识蒸馏
还能将知识蒸馏理解为正则化?Tf-KD:从标签平滑正则化的角度重新审视知识蒸馏原创 2023-01-30 15:03:48 · 757 阅读 · 0 评论 -
【KD基础】Softmax With Temperature公式白话理解
深度学习高温蒸馏:Softmax With Temperature原创 2022-11-28 15:11:08 · 458 阅读 · 0 评论 -
【KD】Transformer在各个研究领域的轻量化研究进展
Fast and Effective!一文速览轻量化Transformer各领域研究进展原创 2022-11-01 11:59:54 · 832 阅读 · 0 评论 -
【KD】相关KD论文简读汇总
相关KD论文最新进展之粗读汇总原创 2022-10-04 17:38:57 · 850 阅读 · 0 评论 -
【KD】2020 CVPR Distilling knowledge from graph convolutional networks
首个GCN上的KD工作原创 2022-09-28 10:51:41 · 1080 阅读 · 1 评论 -
【KD】2022 ECCV Factorizing Knowledge in Neural Networks
知识的拆分与解耦原创 2022-09-25 18:25:10 · 1067 阅读 · 0 评论 -
【KD】2022 KDD FreeKD: Free-direction Knowledge Distillation for Graph Neural Networks
本文提出了基于强化学习的自由方向知识蒸馏FreeKD,不需要更深层次的、经过优化的教师GNN来进行单向知识转移,而是协作学习两个较浅的GNN,以通过分层方式的强化学习从彼此中提取知识,从节点级和结构级两个方面动态管理知识转移的方向原创 2022-09-20 10:35:43 · 599 阅读 · 0 评论 -
【KD】2022 TPAMI Quantifying the Knowledge in a DNN to Explain Knowledge Distillation for Clf
知识蒸馏为什么有效?因为有老师给你划“重点”原创 2022-09-16 11:05:49 · 426 阅读 · 0 评论 -
【KD】Self-KD自蒸馏
自蒸馏:一种简单高效的优化方式翻译 2022-08-21 14:52:03 · 578 阅读 · 1 评论 -
【KD】2022 计算机学报 深度学习中知识蒸馏研究综述
深度学习中知识蒸馏研究综述(感觉是1篇TPAMI的翻译原创 2022-08-15 10:04:07 · 1043 阅读 · 0 评论 -
【GNN-KD】2022 ICLR GLNN Graph-Less Neural Networks: Teaching Old MLPs New Tricks Via Distillation
将GNN蒸馏给MLP:实现准确且快速的图机器学习模型部署,有助于消除推理图的依赖性,从而使 GLNN 比 GNN 快 146×-273x 倍且性能不会降低。原创 2022-08-12 15:38:56 · 313 阅读 · 0 评论 -
【GNN】2022 G-Mixup: Graph Data Augmentation for Graph Classification
图数据增强G-Mixup,使用了图生成器去融合图数据,实现了class-level的图数据mixup原创 2022-08-08 19:08:29 · 726 阅读 · 0 评论 -
【KD】2022 KDD Compressing Deep Graph Neural Networks via Adversarial Knowledge Distillation
为了将深度GNN应用于移动或嵌入式系统上,提出新型知识蒸馏压缩技术压缩GNN原创 2022-08-08 18:53:31 · 314 阅读 · 0 评论 -
【KD】2022 ICLR Graph-Less Neural Networks: Teaching Old MLPs New Tricks Via Distillation
在GNN和MLP之间架起一座桥梁,既能享受MLP的低延迟和无图依赖性,又能达到和GNN表现得一样好?即,这篇文章想要构建一个模型,这个模型既有MLP的低延迟和无图依赖性的优点,又可以达到和GNN相同的表现/预测准确率,从而解决GNN延迟性高的问题。...原创 2022-06-08 11:07:37 · 346 阅读 · 0 评论 -
【KD】将“softmax+交叉熵”推广到多标签分类问题
目录简介单标签到多标签众里寻她千百度组合softmax自动确定阈值暮然回首阑珊处统一的loss形式用于多标签分类所以,结论就是参考简介一般来说,在处理常规的多分类问题时,我们会在模型的最后用一个全连接层输出每个类的分数,然后用softmax激活并用交叉熵作为损失函数。在这篇文章里,我们尝试将“softmax+交叉熵”方案推广到多标签分类场景,希望能得到用于多标签分类任务的、不需要特别调整类权重和阈值的loss。类别不平衡单标签到翻译 2022-05-07 18:00:07 · 282 阅读 · 0 评论 -
【KD】多标签“Softmax+交叉熵”的软标签版本
目录简介巧妙联系形式猜测证明结果实现技巧文章小结参考简介在《将“softmax+交叉熵”推广到多标签分类问题》中,我们提出了一个用于多标签分类的损失函数:这个损失函数有着单标签分类中“Softmax+交叉熵”的优点,即便在正负类不平衡的依然能够有效工作。但从这个损失函数的形式我们可以看到,它只适用于“硬标签”,这就意味着label smoothing、mixup等技巧就没法用了。本文则尝试解决这个问题,提出上述损失函数的一个软标签版本。巧妙联系多标签翻译 2022-05-07 17:48:34 · 437 阅读 · 0 评论 -
【KD】2022 CVPR Decoupled Knowledge Distillation
目录1 研究摘要2 研究动机2.1 符号定义2.2 重新推导 KD Loss3 启发式探索3.1 单独使用 TCKD/NCKD 训练3.2 TCKD:传递样本难度相关的知识3.3 NCKD:被抑制的重要成分3.4 启发4 Decoupled Knowledge Distillation5 实验结果5.1 Decoupling 带来的好处5.2 图像分类5.3 目标检测6 扩展性实验和可视化6.1 训练效率6.2 提升大 Teacher...原创 2022-04-09 15:31:59 · 3458 阅读 · 0 评论 -
【KD】2022 CVPR Self-Distillation from the Last Mini-Batch for Consistency Regularization
目录简介DLB 自蒸馏框架1. 本文的任务2. 本文创新与贡献DLB 自蒸馏框架训练机制实验设置结语简介OPPO 研究院联合上海交通大学提出的新的自蒸馏框架DLB,无需额外的网络架构修改,对标签噪声具有鲁棒性,并可大幅节约训练的空间复杂度,在三个基准数据集的实验中达到了 SOTA 性能。深度学习促进人工智能(AI)领域不断发展,实现了许多技术突破。与此同时,如何在有限硬件资源下挖掘模型潜能、提升部署模型的准确率成为了学界和业界的研究热点。其中,知识蒸馏..翻译 2022-04-08 13:34:02 · 473 阅读 · 0 评论 -
【LSR标签平滑理解】
论文:https://arxiv.org/pdf/1512.00567.pdf(一)、为什么有标签平滑正则化(Label Smoothing Regularization, LSR)的方法?在深度学习样本训练的过程中,我们采用one-hot标签去进行计算交叉熵损失时,只考虑到训练样本中正确的标签位置(one-hot标签为1的位置)的损失,而忽略了错误标签位置(one-hot标签为0的位置)的损失。这样一来,模型可以在训练集上拟合的很好,但由于其他错误标签位置的损失没有计算,导致预测的时候,预测错误的概原创 2021-06-21 11:33:17 · 881 阅读 · 0 评论 -
【GNN】Recent Advances in Reliable Deep Graph Learning
目录简介摘要引言固有噪声的可靠性固有噪声结构噪音属性噪声标签噪声增强技术数据去躁DGL与正则化分布偏移的可靠性图上的分布偏移图的域泛化图上的子种群偏移增强技术不变图表示学习图健壮训练不确定性的量化对抗攻击的可靠性威胁概述操纵式攻击注入式攻击后门式攻击增强技术图处理模型鲁棒化鲁棒训练讨论区别于一般可靠的机器学习统一定义以上威胁的区别结论和未来方向理论框架统一解决.原创 2022-04-06 16:10:54 · 1077 阅读 · 0 评论 -
【GNN】压缩学习范式
目录GNN 压缩的学习范式知识蒸馏可以提升性能低精度的 GNN 的量化小结GNN 压缩的学习范式除了数据准备技术和有效的模型架构之外,学习模式,即模型的训练方式,也可以显著提高 GNN 的性能,并且降低延迟。知识蒸馏可以提升性能知识蒸馏(KD)是一种通用的神经网络学习范式,它将知识从高性能但资源密集型的教师模型转移到资源高效的学生身上。KD 的概念最初是由 Hinton 等人提出的,KD 训练学生以匹配教师模型的输出 logits 以及标准的监督学习损失。杨等人.原创 2022-04-05 16:46:07 · 1375 阅读 · 0 评论 -
【KD】KD 在bert上的应用
简介目录: 蒸馏是什么?怎么蒸BERT? BERT蒸馏有什么技巧?如何调参? 蒸馏代码怎么写?有现成的吗? 今天rumor就结合Distilled BiLSTM/BERT-PKD/DistillBERT/TinyBERT/MobileBERT/MiniLM六大经典模型,带大家把BERT蒸馏整到明明白白!模型蒸馏原理Hinton在NIPS2014[1]提出了知识蒸馏(Knowledge Distillation)的概念,旨在把一个大模型或者多个模型ensemble原创 2022-03-27 17:23:02 · 153 阅读 · 0 评论 -
【KD】2022 ICLR Cold brew
目录简介Introduction本文主要的方法TEACHER MODELSTUDENT MLP MODEL从标签平滑的角度解释模型实验结论参考简介「题目」:COLD BREW: DISTILLING GRAPH NODE REPRESENTATIONS WITH INCOMPLETE OR MISSING NEIGHBORHOODS「作者」:Wenqing Zheng, Edward W Huang, Nikhil Rao, Sumeet Katar原创 2022-03-27 17:03:18 · 1560 阅读 · 0 评论 -
【数学】常见距离估计汇总
KL 散度#tf https://www.tensorflow.org/api_docs/python/tf/keras/metrics/kl_divergenceimport numpy as npimport pandas as pdimport tensorflow as tfy_true = np.random.randint(0, 2, size=(2, 3)).astype(np.float64)y_pred = np.random.random(size=(2, 3))原创 2022-03-17 13:31:57 · 1462 阅读 · 0 评论 -
【HGNN】Zero-shot Domain Adaptation of Heterogeneous Graphsvia Knowledge Transfer Networks
2022 NIPS Zero-shot Transfer Learning within a Heterogeneous Graph via Knowledge Transfer Networks原创 2022-03-11 20:03:59 · 4215 阅读 · 0 评论 -
【KD】2022 WWW CKD
目录1、动机具体阐述相关工作2、方法具体阐述符号定义组成部分1-语义上下文子图采样组成部分2-异构知识建模组成部分3-协作知识蒸馏3、创新4、结果1、动机近年来,异构信息网络的低维表示学习因其在实际应用中的有效性而受到越来越多的关注。与同构信息网络相比,HINs具有连接不同类型语义节点的元路径特征。现有方法主要是在独立学习元路径嵌入的基础上,将其整合成统一的嵌入。然而,HIN中的元路径具有内在的相关性,因为它们反映了同一物体的不同视角。如果将每条元原创 2022-02-28 10:01:36 · 559 阅读 · 0 评论