吃熊的鱼-优快云博客

原创【环境安装常见问题】

安装make（机器不能获取最新版的make）需要torch>=2.5。

2025-08-09 23:48:57 360

原创【生成模型】【模型介绍】（三）Qwen-Image

step蒸馏模型：https://www.modelscope.cn/models/DiffSynth-Studio/Qwen-Image-Distill-Full。Text encoder是QwenVL，理论上可以突破token长度的限制；如果没有DASHSCOPE_API_KEY的话，注释掉rewrite模块。VAE使用的是Wan VAE。可能使用即梦做了数据蒸馏。需要torch>=2.5。

2025-08-06 10:37:29 632

原创【生成模型】【模型介绍】（三）视频生成Wan2.2+lightx

Wan 2.2视频生成模型在ComfyUI中的实现

2025-08-04 13:18:03 289

原创【多模态模型】为什么推理的显存/速度高于训练

最近训练IntenVL多模态模型的时候发现，模型推理时候的显存/速度占用明显高于训练时。

2025-07-17 16:04:22 199

原创【生成模型】生成模型速度调研

Swin-Transformer是一种分窗处理策略，降低空间上attention的复杂度；后面没有被广泛应用，是因为Deformable DETR这种Attetnion降低了复杂度；

2025-07-15 10:17:36 444

原创【生成模型】【ComfyUI】一些重要的节点

comfyui中一些常用的重要节点

2025-07-03 17:05:53 152

原创【生成模型】【ComfyUI】一些环境问题

在使用comfyui-easy-use中的【Image Remove Bg】节点，报错如下。检查环境，一般是cupy的版本和自己的cuda（11.8）不匹配。

2025-06-30 12:08:05 92

原创【生成模型】【模型介绍】（一）视频生成Wan2.1速度质量简单评测

VACE模型除了支持基本的文本和图像作为控制条件输入，还支持将视频和视频mask作为输入控制。简单理解就是视频版本的ControlNet和Flux-Fill。与图片生成的结构很像，VAE encode->Diffusion->VAE decode的形式，只是多了一个时间维度(T+1, H, W, C)

2025-06-27 10:55:32 1204

原创【生成模型】【基础知识】CFG与CFG蒸馏

是生成模型推理时的一种操作，目的是使的生成图像与输入的text prompt更接近。

2025-05-23 16:47:06 388

原创【编译器开发】LLVM Clang的简单实用

【代码】【编译器开发】LLVM Clang的简单实用。

2025-05-14 11:44:50 179

原创 VSCode python配置

输入 Python: Select Interpreter 并回车。按 Ctrl+Shift+P 打开命令面板。在launch.json中添加。

2025-05-14 10:20:06 316

原创【生成模型】【小实验】VAE的作用与Flux-Fill

或者参考官方代码：https://huggingface.co/black-forest-labs/FLUX.1-Fill-dev。可以看见其实diffusion输出的特征中视觉要素已经很明显了，VAE只是让它们看起更像是自然图像。

2025-03-11 12:57:23 531

原创【生成模型】【ComfyUI（三）】使用WebAPI批量调用ComfyUI

可以参考中Flux-Fill部分。

2025-02-25 16:52:40 1082

原创【生成模型】【ComfyUI（二）】通过ComfyUI老版本（0.2.2）支持Flux-Fill了解ComfyUI的代码构成

ComfyUI代码了解

2025-02-25 12:43:20 573

原创【生成模型】【ComfyUI（一）】Flux与Flux-Fill部署与API调用

Flux与Flux-Fill在ComfyUI中的部署

2025-02-20 17:32:24 759

原创【大模型技术】accelerate和deepspeed

accelerate和deepspeed都是用于深度学习训练和推理加速的工具。

2025-02-10 12:01:19 1295

打印权重类型可以看到，只有transformer的weight是量化的uint8，因为不同类型的tensor是不能计算的，因此猜测应该是设置了GGUFQuantizationConfig(compute_dtype=torch.bfloat16),后，会在计算时候将uint8转为torch.bfloat16，然后计算，计算结果转回去或者保持torch.bfloat16，因此它的推理速度应该比原版还慢。BitsAndBytes慢的更多（不知道是不是和它是面向训练的有关）如果推理的图片是噪声，参考。

2025-01-23 12:06:11 2052

原创【pytorch】DataLoader & Sampler的例子

【代码】【pytorch】DataLoader & Sampler的例子。

2025-01-12 11:15:13 161

原创【大模型与AIGC】VLM基础知识汇总

当前的LLM模型往往采用CausalModel，它的mask构建如下，即计算Y[i]时不会有Q[i+t]/K[i+t]/V[i+t] (t>0)引入attention，Q[i]不会与K[i+t]/V[i+t]计算。通过上面的分析，可以知道，对于CausalModel的LLM，第t个词的结果在整过过程是不变的，且不依赖于后面时刻的输入，所以可以使用KV cache，把之前的结果缓存下来，只预测新的token的结果。input length 以及超出长度后如何处理。因此，很多代码是自己实现这个mask，以。

2024-09-03 14:45:40 1485

原创 [技术小技巧] 可视化分析：在jupyter中使用d3可视化树形结构

基于d3.js在jupyter中可视化树形结构数据

2024-04-29 20:45:38 647 1

原创 [目标检测] OCR: 文字检测、文字识别、text spotter

文字检测、识别、OCR数据集和方法调研

2024-04-10 17:51:18 1216

原创【mmdetecion】DETR、DeformableDETR和DINO

fill:#333;color:#333;color:#333;fill:none;

2024-04-10 12:35:00 1360

原创制作github个人主页

构建.github.io主页

2024-01-10 15:43:46 1080

原创【mmdetection】ROIExtractor中的featmap_strides和finest_scale

也就是对于RCNN阶段，用来提取特征的特征层就是neck后给出的特征层的前len(self.featmap_strides)层x[:len(self.featmap_strides)]，而起始层不受self.featmap_strides的控制（也没有其它参数控制），但self.featmap_strides会影响ROIAlign时候rois和特征图的尺度映射，从这个角度上说。为什么这个变量影响这么大，下面查看代码进行分析。通过对下面代码的分析，可以知道，在RCNN阶段。

2023-10-21 13:33:45 598

原创 [科研琐事] 安装服务器的二三事

宽度：一般机器都是符合的；深度：对应服务器最长的那个边；厚度（高度）：1/2/3/4U，就是机柜上写的刻度数字，1U=1.75英寸。我们的2080/3090/4090服务器都是4U的。

2023-10-13 14:52:53 539

原创【mmdetection】MaskRcnn中的mask是怎么输出的，是什么形式？

【代码】【mmdetection】MaskRcnn中的mask是怎么输出的，是什么形式？

2023-08-25 22:07:29 931

原创 VSCode配置（三）设置字体

vs code中有三个部分的字体设置。

2023-02-25 21:58:52 5088

原创 VSCode配置（二）Python

一个IDE的功能要具备如下安装以下插件：（如果是远程调试，则要安装在远程服务器上）

2023-02-25 21:50:17 525

原创 VSCode配置（一）Remote SSH

vscode 配置

2023-02-25 12:00:11 3175

原创【Pytorch】自己的工具类：TensorList

【代码】【Pytorch】自己的工具类：TensorList。

2022-11-02 17:40:09 378

原创 Python 多进程编程(一）Pool & Manager in multiprocessing

multiprocessing中的Pool和Manager使用

2022-10-18 16:15:20 957

原创 Unity开发基础

unity开发的基础：IDE的配置

2022-10-06 11:41:08 1035

原创 [教学小东西][游戏][js] 修改js游戏的属性

html/js小游戏链接：骑士进度条这是一个纯用html和js书写的游戏F12打开源码调试界面，由点击事件找到相关js文件浏览js在，找到游戏相关的全局变量可以从名字和初始值来确定coins: 金钱days: 年龄打开console，修改相关变量正常的话，年龄就被set了...

2022-05-13 14:41:27 6944

原创声音编程(Voice Coding) Talon(一) 基本介绍与安装使用

语音编程平台简介语音编程工具有哪些：Talon是一款声音编程平台，它追求的意义在于完全取代键盘和鼠标。。当前，全球有两个领先的语音编程平台（Programming-By-Speech Platforms）。一是Serenade，它的作用有点像数字助手，可以让你描述正在编程的命令，而不要求你必须逐字逐句地口述每条指令。另一个就是Talon，它提供了对每一行代码更精细的控制，这也意味着你需要对每一个被编入机器的任务有更细致的把握。具体的差别可以参考文章末尾的Serenade 和 Talon编程的例子。除了这

2022-04-02 12:37:20 3697 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

xv6 + qemu 在 ubuntu下的安装说明

ubuntu 的 apt-get update 需要的sources.list

qemu2.4.0.1

xv6 源代码

indigo studio注册机

freeglut预编译版(头文件+lib+dll)

sources.list 64bit

python2 编码问题的测试代码

python编码问题的测试代码

空空如也