- 博客(95)
- 资源 (9)
- 收藏
- 关注
原创 【VLM模型】(一) 轻量化模型
截至2025-12-19,MiniCPM-V系列(以3B级为主力,最新到4.5)在轻量级VLM(≤7B)中属于中文友好、OCR/文档强、推理效率高的第一梯队,综合性价比与落地友好度突出;与Qwen2.5-VL、SmolVLM等相比,各有侧重,适合不同场景。MiniCPM-V支持 int4, GGUF。
2025-12-22 11:27:40
196
原创 【生成模型】【强化学习】(一)RLHF & DPO
大型语言模型(如 GPT 系列)在训练后,往往需要“对齐”(alignment),让它们生成更符合人类偏好的输出。比如,你问 AI 一个问题,它应该给出有帮助、礼貌的回答,而不是胡说八道或有害的内容。传统的对齐方法是 RLHF(Reinforcement Learning from Human Feedback,从人类反馈中强化学习):Step1:收集人类反馈数据。通常是给模型一个提示(prompt,比如“解释量子力学”),模型生成多个回答,然后人类标注哪个更好或者给回答打分s。
2025-11-15 07:48:57
783
原创 【生成模型】【模型介绍】(五)Qwen-Image-Edit:diffusers中LoRA加载与分析
peft中的LoRA层对象(BaseTunerLayer的子类,比如Linear替换成peft.tuners.lora.layer.Linear),并将原本的Linear对象放到新对象的base_layer这个成员变量下,而peft.tuners.lora.layer.Linear调用时会根据激活的adapter自动应用lora。),会发现代码中既没有创建LoRA层,也没有在推理的时候调用LoRA层,那到底是什么时候调用的LoRA参数的呢?在diffsuers阅读某个pipeline的代码(如。
2025-11-06 14:17:18
327
原创 【开发】Git处理分支的指令
是 git fetch + git merge 的组合命令:先拉取远程分支的最新代码(fetch),再将其合并到当前本地分支(默认用 merge 方式)可以将 pull 的合并方式改为变基(即 git fetch + git rebase),既同步远程代码,又保持历史线性,适合个人分支使用。-i表示手动修改提交记录,例如对弹出来的内容进行如下修改:D2改为fixup。会在dev分支上创建一个新commit节点,master上无新节点。
2025-11-05 21:29:30
870
原创 【生成模型】【模型介绍】(四)Qwen-Image-Edit
step蒸馏模型:https://www.modelscope.cn/models/DiffSynth-Studio/Qwen-Image-Distill-Full。
2025-10-21 11:53:22
527
原创 【生成模型】【模型介绍】(三)Qwen-Image
step蒸馏模型:https://www.modelscope.cn/models/DiffSynth-Studio/Qwen-Image-Distill-Full。Text encoder是QwenVL,理论上可以突破token长度的限制;如果没有DASHSCOPE_API_KEY的话,注释掉rewrite模块。VAE使用的是Wan VAE。可能使用即梦做了数据蒸馏。需要torch>=2.5。
2025-08-06 10:37:29
1134
原创 【生成模型】生成模型速度调研
Swin-Transformer是一种分窗处理策略,降低空间上attention的复杂度;后面没有被广泛应用,是因为Deformable DETR这种Attetnion降低了复杂度;
2025-07-15 10:17:36
491
原创 【生成模型】【ComfyUI】一些环境问题
在使用comfyui-easy-use中的【Image Remove Bg】节点,报错如下。检查环境,一般是cupy的版本和自己的cuda(11.8)不匹配。
2025-06-30 12:08:05
145
原创 【生成模型】【模型介绍】(一)视频生成Wan2.1速度质量简单评测
VACE模型除了支持基本的文本和图像作为控制条件输入,还支持将视频和视频mask作为输入控制。简单理解就是视频版本的ControlNet和Flux-Fill。与图片生成的结构很像,VAE encode->Diffusion->VAE decode的形式,只是多了一个时间维度(T+1, H, W, C)
2025-06-27 10:55:32
1734
原创 VSCode python配置
输入 Python: Select Interpreter 并回车。按 Ctrl+Shift+P 打开命令面板。在launch.json中添加。
2025-05-14 10:20:06
334
原创 【生成模型】【小实验】VAE的作用与Flux-Fill
或者参考官方代码:https://huggingface.co/black-forest-labs/FLUX.1-Fill-dev。可以看见其实diffusion输出的特征中视觉要素已经很明显了,VAE只是让它们看起更像是自然图像。
2025-03-11 12:57:23
766
原创 【生成模型】【ComfyUI(二)】通过ComfyUI老版本(0.2.2)支持Flux-Fill了解ComfyUI的代码构成
ComfyUI代码了解
2025-02-25 12:43:20
673
原创 【生成模型】Flux-Fill与量化
打印权重类型可以看到,只有transformer的weight是量化的uint8,因为不同类型的tensor是不能计算的,因此猜测应该是设置了GGUFQuantizationConfig(compute_dtype=torch.bfloat16),后,会在计算时候将uint8转为torch.bfloat16,然后计算,计算结果转回去或者保持torch.bfloat16,因此它的推理速度应该比原版还慢。BitsAndBytes慢的更多(不知道是不是和它是面向训练的有关)如果推理的图片是噪声,参考。
2025-01-23 12:06:11
2316
原创 【大模型与AIGC】VLM基础知识汇总
当前的LLM模型往往采用CausalModel,它的mask构建如下,即计算Y[i]时不会有Q[i+t]/K[i+t]/V[i+t] (t>0)引入attention,Q[i]不会与K[i+t]/V[i+t]计算。通过上面的分析,可以知道,对于CausalModel的LLM,第t个词的结果在整过过程是不变的,且不依赖于后面时刻的输入,所以可以使用KV cache,把之前的结果缓存下来,只预测新的token的结果。input length 以及超出长度后如何处理。因此,很多代码是自己实现这个mask,以。
2024-09-03 14:45:40
1610
原创 【mmdetecion】DETR、DeformableDETR和DINO
fill:#333;color:#333;color:#333;fill:none;
2024-04-10 12:35:00
1448
原创 【mmdetection】ROIExtractor中的featmap_strides和finest_scale
也就是对于RCNN阶段,用来提取特征的特征层就是neck后给出的特征层的前len(self.featmap_strides)层x[:len(self.featmap_strides)],而起始层不受self.featmap_strides的控制(也没有其它参数控制),但self.featmap_strides会影响ROIAlign时候rois和特征图的尺度映射,从这个角度上说。为什么这个变量影响这么大,下面查看代码进行分析。通过对下面代码的分析,可以知道,在RCNN阶段。
2023-10-21 13:33:45
668
原创 [科研琐事] 安装服务器的二三事
宽度:一般机器都是符合的;深度:对应服务器最长的那个边;厚度(高度):1/2/3/4U,就是机柜上写的刻度数字,1U=1.75英寸。我们的2080/3090/4090服务器都是4U的。
2023-10-13 14:52:53
581
原创 【mmdetection】MaskRcnn中的mask是怎么输出的,是什么形式?
【代码】【mmdetection】MaskRcnn中的mask是怎么输出的,是什么形式?
2023-08-25 22:07:29
976
ubuntu 的 apt-get update 需要的sources.list
2015-10-21
freeglut预编译版(头文件+lib+dll)
2015-12-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1