
计算机视觉
文章平均质量分 70
北上ing
这个作者很懒,什么都没留下…
展开
-
I2I任务【Image to Image translation】
如照片上色、轮廓填充、白天转黑夜、夏季转冬季。原创 2025-04-29 14:19:40 · 113 阅读 · 0 评论 -
解密分类模型的核心:Sigmoid与SoftMax的应用与奥秘
不止图片分类,目标检测也用到了,毕竟检测包括定位与分类嘛。原创 2025-04-28 07:25:07 · 798 阅读 · 0 评论 -
从FP32到BF16,再到混合精度的全景解析
单精度(FP32)、半精度(FP16)和混合精度(FP32+FP16)是常见的浮点数计算格式,在深度学习模型的训练与推理中都有涉及。原创 2025-04-25 18:10:10 · 432 阅读 · 0 评论 -
初探Stable Diffusion:开启AI图像生成的新纪元
Stable Diffusion是由Stability AI开源发布与维护的创新图像生成技术,是一种支持文本到图像生成(Txt2Img)的模型。原创 2025-04-23 10:14:18 · 1215 阅读 · 0 评论 -
解锁快速AI生图:SDWebUI和ComfyUI谁是你的最佳拍档?
对于设计师等创作者来说,SDWebUI与ComfyUI肯定是不陌生了,两者正是当前火热的AI图像生成工具。笔者也在2025.4在Ubungu上部署了SDWebUI与ComfyUI。原创 2025-04-23 10:06:22 · 470 阅读 · 0 评论 -
StableDiffusion的概念与搭建
Stable Diffusion是基于一个潜在扩散模型LDMs的生成模型。原创 2025-03-31 08:30:45 · 485 阅读 · 0 评论 -
多模态中的交叉注意力Cross Attentionon
CA作为多模态融合的一个重要组成部分,它通过注意力机制在不同模块之间建立联系,促进信息的交流和整合,从而提升了模型处理复杂任务的能力。原创 2024-05-01 11:00:34 · 4259 阅读 · 0 评论 -
CV中token、Patch Embedding、positional encoding的概念(多模态、ViT、Transformer)
在不同的语境下,术语token等有不同的解释。笔者这里的概念解释基于Google的ViT原文。NLP中,token指的是一个单词word。而CV中,token的概念包含:token、class token、patch token等。原创 2024-04-26 09:20:17 · 2902 阅读 · 1 评论