自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 你上过高中,你说你搞不明白transformer的自注意力机制?

本文旨在浅出深入讲解transformer自注意力机制,揭开AI大模型神秘面纱,以下全是干货! Transformer 源自 发表于 2017 年 6 月(arXiv 预印本,作者上传时间为 2017-06-12),谷歌论文《Attention Is All You Need》。研究者发现:处理语言时,不必像人一样逐字“背顺序”,而是学会“注意力分配”——一句话里哪些词最重要。Transformer 正是用 自注意力机制,让模型一次性看懂整句话,抓住关键关系,从而更快、更准地理解和生成语言。这

2025-12-26 12:46:11 848

原创 从 DeepSeek 看 2025 年大模型工程化范式的重构

 2025 年初 DeepSeek的爆火,不仅是单一公司的突围,更是全球 AI 行业从“参数军备竞赛”转向“极致工程化”的历史分水岭。经过 2025 全年的行业验证,DeepSeek 所代表的 MoE 架构、MLA 机制、FP8 训练及纯强化学习(Pure RL) 路线,已被证明是平衡性能与成本的综合最优解。它迫使全球 AI 厂商完成了技术栈的重构,确立了“精益计算”的新工业标准。

2025-12-20 12:32:25 723

原创 LLaMA-Factory微调(LoRA)Qwen2.5实战

LLaMA-Factory 是目前公认最好用、门槛最低的开源微调工具。它把复杂的代码封装成了可视化的界面,让你像填表一样就能训练模型。。它的核心目标是让普通开发者和研究者也能在消费级显卡(如 4090)上轻松微调千亿参数的大模型。

2025-12-19 19:59:25 660

原创 comfyui + fluxGym角色固定工作流实战

它的核心目的是让普通用户在消费级显卡(如 12GB/16GB 显存)上也能轻松LoRA,训练 AI 模型,无需面对复杂的参数设置,如果你想给 FLUX 炼制一个角色或画风 LoRA,但不想学习复杂的训练参数,FluxGym 是目前最适合新手的“傻瓜式”入门工具。如若安装过程中发生报错,一般都是依赖安装错误,建议直接将报错信息发送给gemini,使用gemini分析依赖,进行安装即可。fluxgym\models\clip路径下存放clip文件,下载链接如下。4.安装适配你的cuda环境的pytorch。

2025-12-14 17:14:59 572

原创 comfyui通义万相wan2.1+人物360°旋转工作流实战

色调艳丽,过曝,细节模糊不清,字幕,风格,作品,画作,画面,整体发灰,最差质量,低质量,JPEG压缩残留,丑陋的,残缺的,多余的手指,画得不好的手部,画得不好的脸部,畸形的,毁容的,形态畸形的肢体,手指融合,杂乱的背景,三条腿,背景人很多,倒着走。核心作用是预加载并缓存指定大模型的资源,减少重复加载的时间成本,提升工作流的运行效率(尤其适用于 Wan2.1 这类大参数量模型),大幅缩短工作流的启动与运行耗时。最终图片效果,可明显观察到人物从背景中抠出来了,可作为LoRA训练集了。

2025-12-07 22:28:28 509

原创 comfyui通义万相wan2.2 control camera运镜工作流实战

色调艳丽,过曝,细节模糊不清,字幕,风格,作品,画作,画面,整体发灰,最差质量,低质量,JPEG压缩残留,丑陋的,残缺的,多余的手指,画得不好的手部,画得不好的脸部,畸形的,毁容的,形态畸形的肢体,手指融合,杂乱的背景,三条腿,背景人很多,倒着走。此节点核心作用是在视频帧之间插入新的中间帧,提升视频的帧率与流畅度,属于 “补帧” 工具,提高视频的动态顺滑度。target fps:120,指插帧后的总帧数,即总共60帧,每帧中间插一帧后变为120帧。该节点是将原始图片进行裁剪,影响视频分辨率,其中。

2025-12-07 21:39:32 664 1

原创 comfyui 通义万相Wan2.2参考动作控制图生视频工作流实战

精度与速度的平衡最优—— 检测人体区域的准确率不逊于 yolox_l,且运算速度更快,适配舞蹈多帧动态处理的需求。YOLOX 系列的大型检测模型(“l” 代表 Large)。scale_stick_for_xins_cn:新视角骨骼线条缩放,针对特殊视角(如倾斜镜头)的骨骼线条缩放适配,普通场景无需开启。resolution:骨骼检测时的图像分辨率(单位:像素),数值越高检测精度越高,但运算速度越慢。yolo_nas_s_p16.onnx:YOLO-NAS 系列的小型检测模型(“s” 代表 Small)。

2025-12-02 17:05:48 955 1

原创 comfyui 通义万相Wan2.2图生视频工作流实战

加载LoRA模型,也可不加载(本工作流实际没有加载,如果使用的是“4steps / 8steps”后缀的 WAN2.2 主权重,则这些权重内部已经合并了相应的 Motion LoRA,因此外部无需再次加载 LoRA),加载不同的LoRA模型会对主模型产生影响,比如电影质感增强版、细节增强版、step加速版、一致性等不同的LoRA。这里的4steps/8steps指的是主模型或LoRA模型的训练过程是针对 4 步推理去噪的时间轴做了训练优化,扩散模型的训练本质是学习从 “无噪声→全噪声” 的反向过程。

2025-11-30 00:22:56 1316

原创 桌面版comfyui环境重装实战

点击顶部菜单栏的 **“查看”** 选项卡;删除所有和旧 ComfyUI 路径相关的注册表项(仅删除明确标注 ComfyUI 的项,避免误删系统项,若部分注册表项不确定,可以直接截图询问各大AI)。之后还有个选择安装路径的地方(忘记没截图),主要是安装你的comfyui workspace,用来存放你的models(模型)、custom_notes(插件)、,venu(虚拟环境)等内容。如果\Local路径下没有comfyui相关文件,那么去C:\Users\你的用户名\AppData\Roaming。

2025-11-28 20:48:23 638

原创 comfyui SD3.5+ControlNet渲染工作流实战

原因是SD3.5 的模型架构(16 通道潜变量)与旧版模型(SDXL/SD1.5 的 4 通道潜变量)完全不同,只有其专用 VAE(sd3.5_large_vae.safetensors)能适配 16 通道潜变量的解码。分别加载sd3.5_large_controlnet_canny.safetensors 和sd3.5_large_controlnet_depth.safetensors。可以看到使用controlnet_canny后的提取效果(中图)、controlnet _depth(右图)

2025-11-26 19:58:07 849

原创 comfyui人脸识别、迁移及精度检测实战

保证创作在可控范围内,降低创作随机性。

2025-11-26 18:13:12 629 1

原创 comfyui下使用GPU加速insightface工作流常见故障排查

comfyui下使用GPU加速insightface工作流常见故障排查

2025-11-22 16:30:43 919

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除