
AI技术
文章平均质量分 73
吃熊的鱼
菜鸟一只
展开
-
【生成模型】【基础知识】CFG与CFG蒸馏
是生成模型推理时的一种操作,目的是使的生成图像与输入的text prompt更接近。原创 2025-05-23 16:47:06 · 216 阅读 · 0 评论 -
【生成模型】【小实验】VAE的作用与Flux-Fill
或者参考官方代码:https://huggingface.co/black-forest-labs/FLUX.1-Fill-dev。可以看见其实diffusion输出的特征中视觉要素已经很明显了,VAE只是让它们看起更像是自然图像。原创 2025-03-11 12:57:23 · 287 阅读 · 0 评论 -
【生成模型】Flux-Fill与量化
打印权重类型可以看到,只有transformer的weight是量化的uint8,因为不同类型的tensor是不能计算的,因此猜测应该是设置了GGUFQuantizationConfig(compute_dtype=torch.bfloat16),后,会在计算时候将uint8转为torch.bfloat16,然后计算,计算结果转回去或者保持torch.bfloat16,因此它的推理速度应该比原版还慢。BitsAndBytes慢的更多(不知道是不是和它是面向训练的有关)如果推理的图片是噪声,参考。原创 2025-01-23 12:06:11 · 1673 阅读 · 0 评论 -
【大模型与AIGC】VLM基础知识汇总
当前的LLM模型往往采用CausalModel,它的mask构建如下,即计算Y[i]时不会有Q[i+t]/K[i+t]/V[i+t] (t>0)引入attention,Q[i]不会与K[i+t]/V[i+t]计算。通过上面的分析,可以知道,对于CausalModel的LLM,第t个词的结果在整过过程是不变的,且不依赖于后面时刻的输入,所以可以使用KV cache,把之前的结果缓存下来,只预测新的token的结果。input length 以及超出长度后如何处理。因此,很多代码是自己实现这个mask,以。原创 2024-09-03 14:45:40 · 1425 阅读 · 0 评论 -
[技术小技巧] 可视化分析:在jupyter中使用d3可视化树形结构
基于d3.js在jupyter中可视化树形结构数据原创 2024-04-29 20:45:38 · 605 阅读 · 1 评论 -
[目标检测] OCR: 文字检测、文字识别、text spotter
文字检测、识别、OCR数据集和方法调研原创 2024-04-10 17:51:18 · 1157 阅读 · 0 评论