- 博客(10)
- 收藏
- 关注
原创 科研工作分享——CVRP|TIP|TGRS Pansharpening 扩散模型 多模态
Dual-Granularity Semantic Guided Sparse Routing Diffusion Model for General PansharpeningYH Xing, LT. Qu, SZ. Zhang, K. Zhang, YN. Zhang and L. BruzzongCVPR 2025(学生一作)[pdf][code]CrossDiff: Exploring Self-Supervised Representation of Pansharpening via Cr
2025-02-26 14:20:19
816
1
原创 Qwen微调的流程
在huggingface的TRL中,支持最常见的SFT数据格式,以下两种格式不需要任何预处理,直接load_dataset后传入Trainer,格式的处理方式会按照tokenizer的chat_template进行处理,本文按照conversational format处理数据。load_in_8bit和load_in_4bit的模型参数量化,显著降低模型显存要求,加速base model的运算,只在PEFT使用。lora_alpha 一般是lora_r的两倍,超参数trick。
2024-12-13 19:48:02
582
原创 Qwen的FunctionCall模版整理
Qwen的chattemplate一看太复杂了,似乎最开始有tools的说明,assisatant会输出tool call并加入对话,以下给出Qwen官方的一个demo和自己的注释说明。
2024-12-12 21:15:54
1207
原创 Qwen代码层面解密
eos_token_id”: 151645, //instruct model的eos_token_id修改为, base model本来都是
2024-12-12 21:08:20
1459
原创 从Qwen看多模态技术的发展路径
接下来是本博客的第三部分,即Qwen团队的多模态技术发展,也是我个人觉得技术tricks最多的部分,多的一个输入条件为LLM架构和训练方式带来了很多可操作的“创新点”,包括token对齐、token压缩、图片视频处理、音频处理、多模态数据集的构造、多阶段训练pipeline、多维度ROPE编码等。
2024-12-09 20:26:17
298
原创 从Coder和Math看Qwen的下游任务适配流程
这些模型都是在基座模型基础上continue pretrain+post train获得的,因此其训练过程可以看做行业模型的适配流程;我将简单讨论这两年Qwen团队的适配技术,最后介绍一个旅游行业大模型的比赛和一些简单的思路。本文将介绍qwen-coder, qwen-math, qwq等模型。
2024-12-05 16:31:04
176
原创 从Qwen基础模型看LLM的技术发展
3T的预训练Tokens,基于SFT+PPO的后训练对齐方案;2K的训练上下文,32K的推理最大上下文长度(NTK ROPE+logn+window),以及15万大小的词表(对多语言非常友好,一般不需要拓展词表适配新语言);模型结构上采用RoPE相对位置编码、SwiGLU激活函数、RMSNorm;模型在MMLU和CMMLU上分别为77和83分,MATH得分35,
2024-12-04 21:03:19
1844
原创 Prompt大全(Qwen实践)
生成candidate和判断candidate分别调用了一次LLM,对于失效的candidate进行剪枝;上述few-shot prompt中,包含推理轨迹-任务操作-操作结果三个基本步骤,其中任务操作允许与外部环境交互来提升LLM的能力;针对特定任务的Few-shot COT example比较难写,可以在LLM自动生成的COT链路上不断优化微调。对于复杂任务难以一次性解决的或者输入输出太长的,可以多轮调用LLM,进行step-by-step的微调控制。指令:想要模型执行的特定任务或指令。
2024-12-03 19:56:11
1534
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人