- 博客(176)
- 收藏
- 关注
原创 语言模型的On Policy蒸馏:从自我错误中学习
知识蒸馏(KD)被广泛用于通过训练较小的学生模型来压缩教师模型,以降低推理成本和内存占用。然而,当前用于自回归序列模型的KD方法存在训练期间看到的输出序列与学生在推理期间生成的输出序列之间的分布不匹配的问题。为了解决这个问题,我们引入了广义知识蒸馏(GKD)。GKD不是仅仅依赖于一组固定的输出序列,而是利用老师对这些序列的反馈,在学生自生成的输出序列上训练学生。与监督式KD方法不同,GKD还提供了在学生和老师之间采用替代损失函数的灵活性,这在学生缺乏模仿老师分布的表现力时很有用。
2024-09-22 14:39:53
1797
原创 预训练数据指南:衡量数据年龄、领域覆盖率、质量和毒性的影响
预训练是开发高性能语言模型(LM)的初步和基本步骤。尽管如此,预训练数据的设计却严重缺乏记录,而且往往是以缺乏经验支持的直觉为指导。为了解决这个问题,我们对28个1.5B参数的Decoder only模型进行了预训练,训练数据包括:(1)不同时间;(2)使用不同毒性和质量过滤器;(3) 不同领域组成的数据。首先,我们量化了预训练数据时效性的影响。评估数据和预训练数据之间的时间变化会导致性能下降,而微调并不能克服这一问题。其次,我们探讨了质量和毒性过滤器的影响,结果表明在标准基准性能和毒性风险之间存在权衡。
2024-09-16 11:53:48
1835
原创 大语言模型的简易可扩展增量预训练策略
大语言模型(LLMs)通常需要在数十亿个tokens上进行预训练,一旦有了新数据,又要重新开始训练。更有效的解决方案是增量预训练(Continue PreTraining)这些模型,这与重新训练相比可以节省大量的计算资源。然而,新数据带来的分布偏移通常会导致在旧数据上的性能下降或者对新数据的适应性不佳。
2024-08-15 19:41:08
2038
原创 Bayesian Optimization贝叶斯优化(代码详解)
`bayesian-optimization是一个基于贝叶斯推理和高斯过程的约束全局优化包,它试图在尽可能少的迭代中找到未知函数的最值。该技术特别适合优化高成本函数。本文对其代码实现进行了解析。
2024-07-23 15:32:55
2631
原创 最佳学习率和Batch Size缩放中的激增现象
《Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling》论文解读,对最优学习率和Batch Size的缩放关系进行了理论证明
2024-06-28 16:30:41
777
原创 Chronos:学习时间序列的大语言模型(代码解析)
Chronos:学习时间序列的大语言模型(代码解析),对关键类进行了逐行代码解析,并对需要注意的地方进行了说明。
2024-05-10 12:01:00
2226
1
原创 Approaching (Almost) Any Machine Learning Problem中译版
本文对Approaching (Almost) Any Machine Learning Problem(简称AAAMLP)进行了中文翻译
2023-08-30 11:28:39
7696
4
原创 利用MMPose进行姿态估计(训练、测试全流程)
利用MMpose进行姿态估计,对动物关键点检测模型进行微调与测试,从数据集构造开始,详细解释各模块作用,训练、测试全流程
2023-08-07 12:30:04
9959
4
原创 轻量级目标检测模型NanoDet-Plus微调、部署(保姆级教学)
超轻量级目标检测模型NanoDet-Plus微调、ONNRuntime部署保姆级教学!
2023-08-02 21:22:27
11728
3
原创 MMDetection微调RTMDet模型针对实例分割任务
使用MMDetection微调RTMDet模型,使其用于实例分割任务,并在Motorcycle Night Ride数据集上进行测试,对训练过程中可能出现的一些问题进行了说明,并给出了解决方案
2023-07-24 08:37:28
13079
5
原创 MMDetection框架训练、测试全流程
本文主要介绍了MMDetection的训练与测试过程,在数据集Dog and Cat Detection上微调了RTMDet模型,解析了RTMDet模型,最终模型指标bbox_mAP达到了0.952。
2023-07-14 14:50:53
15667
6
原创 利用MMSegmentation微调Mask2Former模型
使用mmsegmentation对mask2former进行微调,并在西瓜数据集和组织肾小球数据集上进行演示
2023-07-14 08:00:22
19172
2
原创 数据分析实战(基础篇):从数据探索到模型解释
本文着重介绍数据分析实战的基础知识和技巧,探索从数据探索到建模再到模型解释的完整过程。内容包含数据探索、模型建立、调参技巧、SHAP模型解释
2023-07-08 20:59:04
1578
1
原创 微调Hugging Face中图像分类模型
在kaggle平台上使用P100 GPU微调Hugging Face中图像分类模型vit-base-patch16-224
2023-06-15 23:25:41
16576
2
Deep Learning Tuning Playbook(中译版)
2023-01-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人