知识蒸馏
文章平均质量分 93
知识蒸馏
二分掌柜的
二分掌柜的
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
知识蒸馏 Knowledge Distillation 0. 基础:自回归分解与逐 token散度
flyfish原创 2025-08-24 11:46:29 · 614 阅读 · 0 评论 -
知识蒸馏 - 通过引入温度参数T调整 Softmax 的输出
flyfish原创 2025-07-28 19:21:26 · 950 阅读 · 0 评论 -
知识蒸馏 - 自信息量是单个事件的信息量,而平均自信息量(即信息熵)是所有事件自信息量以其概率为权重的加权平均值
flyfish原创 2025-08-02 12:08:19 · 946 阅读 · 0 评论 -
知识蒸馏 - 基于KL散度的知识蒸馏 KL散度的方向
flyfish原创 2025-08-07 20:08:42 · 1681 阅读 · 0 评论 -
知识蒸馏 - 视觉模型知识蒸馏Vision-KD-Trainer KL散度公式变化
flyfish原创 2025-08-04 19:55:30 · 1060 阅读 · 0 评论 -
知识蒸馏 Knowledge Distillation - 似然函数的形式为什么是这个样子
flyfish原创 2025-08-25 18:49:39 · 791 阅读 · 0 评论 -
知识蒸馏 - 各类概率分布
flyfish原创 2025-08-18 19:46:00 · 913 阅读 · 0 评论 -
知识蒸馏 Knowledge Distillation 乘法法则、全概率公式、贝叶斯定理
flyfish原创 2025-08-22 20:11:27 · 1162 阅读 · 0 评论 -
知识蒸馏 - 信息量的公式为什么是对数
flyfish原创 2025-08-02 12:07:42 · 1130 阅读 · 0 评论 -
知识蒸馏 Knowledge Distillation 概率链式法则(Probability Chain Rule)
flyfish原创 2025-08-23 21:51:42 · 1049 阅读 · 0 评论 -
知识蒸馏 Jensen-Shannon散度
flyfish原创 2025-08-18 19:46:51 · 1355 阅读 · 0 评论 -
知识蒸馏 Knowledge Distillation 论文 Generalized Knowledge Distillation (GKD) 目标函数的演化
flyfish原创 2025-08-22 20:08:55 · 809 阅读 · 0 评论 -
知识蒸馏 - 最小化KL散度与最小化交叉熵是完全等价的
flyfish原创 2025-08-02 12:09:47 · 737 阅读 · 0 评论 -
知识蒸馏 Knowledge Distillation 联合概率、条件概率、边缘概率
flyfish原创 2025-08-22 20:10:01 · 938 阅读 · 0 评论 -
知识蒸馏 - 视觉模型知识蒸馏Vision-KD-Trainer KL散度公式对应
flyfish原创 2025-08-03 14:42:26 · 387 阅读 · 0 评论 -
知识蒸馏 - 对数函数的单调性
flyfish原创 2025-08-02 12:06:57 · 3873 阅读 · 0 评论 -
知识蒸馏 Knowledge Distillation 1. 监督式微调(SFT):极大似然是前向 KL 的特例
flyfish原创 2025-08-24 21:56:52 · 898 阅读 · 0 评论 -
知识蒸馏 Knowledge Distillation - MLE(Maximum Likelihood Estimation,极大似然估计)是什么
flyfish原创 2025-08-25 18:51:05 · 734 阅读 · 0 评论 -
知识蒸馏 - 大语言模型知识蒸馏LLM-KD-Trainer 源码分析 KnowledgeDistillationTrainer类
flyfish原创 2025-08-09 12:27:22 · 3885 阅读 · 0 评论 -
知识蒸馏 - 根据真实事件的真实概率分布对其进行编码
flyfish原创 2025-08-02 12:08:54 · 1064 阅读 · 0 评论 -
知识蒸馏 - 大语言模型知识蒸馏LLM-KD-Trainer 源码分析 数据集处理
flyfish原创 2025-08-09 12:34:56 · 848 阅读 · 0 评论 -
知识蒸馏(KD)代码实现
flyfish原创 2025-08-20 18:46:29 · 829 阅读 · 0 评论 -
知识蒸馏 - 视觉模型知识蒸馏Vision-KD-Trainer 采用PyTorch 内置函数F.kl_div的实现方式
flyfish原创 2025-08-03 15:03:40 · 334 阅读 · 0 评论 -
知识蒸馏 - 信息熵中的平均为什么是按概率加权的平均
flyfish原创 2025-08-02 12:09:24 · 742 阅读 · 0 评论 -
知识蒸馏 - 蒸的什么
flyfish原创 2025-07-28 19:02:28 · 976 阅读 · 0 评论 -
知识蒸馏 - 视觉模型知识蒸馏Vision-KD-Trainer Helloworld
flyfish原创 2025-08-02 12:10:10 · 1966 阅读 · 0 评论 -
知识蒸馏 Knowledge Distillation 序列的联合概率 分解成 基于历史的条件概率的连乘序列
flyfish原创 2025-08-23 22:15:08 · 949 阅读 · 0 评论 -
知识蒸馏 Knowledge Distillation- MLE(Maximum Likelihood Estimation,极大似然估计)中 极大 的含义是什么
flyfish原创 2025-08-25 18:53:28 · 1214 阅读 · 0 评论 -
知识蒸馏 - 视觉模型知识蒸馏Vision-KD-Trainer 代码中KL散度公式 为什么 dim=-1
flyfish原创 2025-08-03 14:42:51 · 1029 阅读 · 0 评论
分享