自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 python 根据 str与运行一个函数

main.py这些run_xxx()函数都在run_2sfs:两阶段少样本方法;run_lora:LoRA 微调;:零样本推理;run_probe:线性探测器。这是一个统一的接口调度写法,便于根据不同实验模式灵活调用对应 Few-Shot 实验流程。如果你需要我帮你梳理run_2sfs()的内部逻辑结构,也可以继续说~ yu。

2025-08-05 19:12:52 343

原创 TP、FP、Precision、Recall、PR 曲线、IoU 与 mAP

在所有被模型“预测为正”的样本中,有多少是真正为正的?关注预测的准确性精确率越高 → 模型越不容易误报(FP 少)PR 曲线描述了模型在不同置信度阈值下的精确率与召回率的变化关系。横轴:Recall(召回率)纵轴:Precision(精确率)IoU=预测框 ∩ 真实框预测框 ∪ 真实框评价预测框与真实框的重合程度范围:[0, 1],越大越好指标公式关注点应用场景IoU交并比区域重合度检测框质量Precision准确性医疗、安防等需控制误报的场景Recall完整性。

2025-08-01 11:01:11 884

原创 python中的拷贝和引用

操作方式是否共享内存修改子对象是否影响原对象是是否否。

2025-07-26 09:44:30 242

原创 scatter 与scatter_add_

torch.Tensor.scatter_(dim, index, src) # 原地版本scatter用于将src张量的值按照index中提供的位置“散点式地填入”到目标张量的某个维度上(即“写入”操作)。

2025-06-18 16:50:51 866

原创 Gated FFN

项目说明非线性路径(经过激活函数)up_proj(x)线性路径(直接乘)Gated 控制输出(非线性 gating)最终回到原维度dropout防止过拟合8/3+ 64 对齐来自 LLaMA 的经验,性能友好。

2025-06-18 10:44:04 346 1

原创 MHA MQA GQA 的联系与区别

可以把 MHA 想象成:32 个记者(Query)问 32 个目击者(Key/Value)问题,每人对每人提问。而 MQA 则是:32 个记者(Query)围着一个公共 witness(Key/Value)提问,效率更高但细节少些。项目描述MQA 目的降低推理计算成本、显存消耗方式Q 多头、K/V 少头或单头(共享)效果降低计算复杂度、尤其推理加速显著适用场景大模型推理部署、KV Cache 优化缺点对齐能力稍弱于全 MHA,但在大模型中影响不大。

2025-06-17 22:36:31 400

原创 llm 的tokenizer的一些知识

这个文件定义的是一个BPE 分词器的运行结构,用于将输入文本:分词成 token(使用 Byte-Level 预处理 + BPE merge)映射到 vocab 中的 id(词表)支持将 token id 反解为原始字符串加入了三类特殊 token和<|im_end|>用于聊天格式处理BPE,全称是,中文常翻作字节对编码或子词合并算法,是一种子词级别的分词方法,广泛用于语言模型的 tokenizer 中,比如 GPT、RoBERTa、LLaMA 等。BPE merge就是。

2025-06-17 17:24:17 722

原创 minimind 的tokenizer config 配置文件注解

定义了一个适用于聊天模型(如 LLaMA3 风格)的 tokenizer;使用了和<|im_end|>包裹 user/system/assistant 的内容;不自动添加 bos/eos 空格;最大长度支持 32K token;定义了一个完整的多轮对话格式化方式。

2025-06-17 16:58:40 258

原创 llama-factory qwen3 微调 以及数据的一个错误

其中chat gpt 给我胡诌了一份dataset_info.json 如下,会导致无法加载数据集。其余参数默认就可以训练了,训练后记得加载lora,就可以进行对话了。写一个dataset_info.json,放在一起。预览数据集(lora 检查点路径为空即可。准备原huanhuan.json数据集。其中对话提示词模版选择 alpaca。启动llama factory。

2025-06-17 15:46:59 338

原创 LLaMA-Factory 安装

2025-06-16 15:02:02 152

原创 如何引用arxiv中的文章

2025-06-07 19:53:45 91 1

原创 DPO PPO GRPO RLHF 的区别

PPO 要估 Advantage,需要价值函数(critic);步骤:直接在(prompt, preferred, dispreferred)三元组上最小化上式即可。适合需要采样多条长解链的“深度推理”场景(DeepSeekMath、DeepSeek-R1)。介于 DPO 和 PPO 之间:保留在线改进,但通过“组相对评分”省掉 critic,当 Advantage,直接做 PPO-Clip 更新 —— 省掉 critic。训练像普通 SFT 一样简单,速度快,效果与 RLHF 接近甚至更好。

2025-06-06 10:19:29 1746 2

原创 创建 mini-imagenet 和 tiered-imagenet 数据集

python mini_imagenet_generator.py --tar_dir /workspace/dataset/meta-dataset-src/ILSVRC2012_img_train.tar --image_resize 0

2024-11-18 21:07:29 329 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除