wangzha_m-优快云博客

原创文生图相关论文汇总

DDPM是"Denoising Diffusion Probabilistic Models"的缩写，去噪扩散概率模型。

2024-09-22 20:20:57 574

原创 super point 和super glue

Sinkhorn算法，匹配算法，可导的匈牙利算法，就是交替做行normalization和column normalization，做多次。垃圾箱：关系矩阵多加了一行和一列，用来表示图外的点，谁和这个点匹配了，谁就算作没有匹配上有效的点。

2024-09-23 16:37:39 282

这样的好处是“抱”这种动作能很好的训练出来，我们本来数据就很少，“新形象1”，抱着，“新形象2”，这样的标注出图时候，pormpt很难精准控制，我猜测背后的逻辑是需要学习的东西更多更难收敛。解释：比如图中出现了3只兔子，不要只标注rabbit，而是要具体说明数量3rabbit，不然出图的时候，没法子控制兔子的数量，也不好控制位置，甚至兔子很容易出现多脚多头。这种风格差异大的图片多了之后，我们lora出图的风格就会不稳定，我自己的体会就是一开始搜集了很多的嫦娥，脸经常糊，有时候山和建筑的风格就差别挺大。

2024-09-22 22:22:51 986

原创 CTC loss 博客转载

这时候我们就可以填表了，表中每个圆圈都是概率值，第一行第一列的数值就是，字符1是类别空格的概率，第二行第一列的数值就是，字符1是类别a的概率。模型预测结果是8*37的大小，换句话说就是，预测出来了8个字符，每个字符的37个类别的概率。一个合法路径就是一种预测结果为正确的情况，每一个合法路径上的概率相乘就是这个路径的概率。英文OCR，37个类别（26个小写字母+10个汉字+空格），最大输出长度8个字符。优化目标是最大化“所有合法路径概率的和”；

2024-09-22 02:31:10 447

原创 SVTR文字识别

论文2.5中说的N nodes，就是输出的类别数量，英文37，中文6625，英文37说的是最简单的英文文字识别任务，不区分大小写，就是26个字母+10个数字+空格；高度下降为一半，宽度不降，是因为高度为度上采用stride=2，宽度上stride=1；就是一个窗口内的Global Mixing，局部的自注意，添加局部范围的信息；就是全局的自注意，类似与transformer，添加全局的信息；BN就是BatchNorm，LN就是layer norm；

2024-09-22 02:13:09 300

原创 DBNet 博客转载

最后的文字概率还需要扩张d。

2024-09-21 22:45:44 215

原创 ViT模型

经过N层transformer编码器处理后的特征的维度与输入前相同，均为[197，768]，我们只使用列表切片的方式提取出类别token，维度为[1,768].进行下一步的类别分类。有小伙伴可能不理解，那不是其它的特征没有用到吗？其实不是，多头注意力机制可以让不同位置的特征进行全面交互，这里输出的类别token和之前输入的类别token早已发生了巨变，这种变化是由其它特征影响的。

2024-09-21 21:20:32 444

原创 MAE 模型

VIT直接在ImageNet-1k训练是82.5%，VIT先在ImageNet-21k上通过MAE的方式预训练，再在ImageNet-1k上Fine-tuning是84,.9%；思想：自监督学习（Self-Supervised Learning），遮住大部分（75%）patches，还原这些patches。除了Fine-tuning，还可以Linear Probing (只训练最后一层。给 Encoder 输入 mask tokens，效果是变差的；

2024-09-21 21:01:23 503

原创 EfficientNet V1 V2

随着图像分辨率的增加，正则化强度也会相应增加，从而避免过拟合；Dropout、RandAugment（图像数据增强）和Mixup（标签图片混合，即透明覆盖）三个方面；Fused-MBConv使用的常规3*3卷积虽然参数更多，但是能更好的适应硬件加速，速度反而更快；搜索Fused-MBConv的配比。网络深度、宽度和图像分辨率，进行了栅格搜索（Grid Search），找到了最优的几种搭配。一种训练策略，从低分辨率图像开始训练，然后逐步增加图像分辨率。

2024-09-21 17:18:20 348

原创 PP-HGNet(High Performance GPU Net)

PP-HGNet(High Performance GPU Net) 是百度飞桨视觉团队自研的更适用于 GPU 平台的高性能骨干网络，该网络在 VOVNet 的基础上使用了可学习的下采样层（LDS Layer），融合了 ResNet_vd、PPHGNet 等模型的优点，该模型在 GPU 平台上与其他 SOTA 模型在相同的速度下有着更高的精度。

2024-09-21 00:36:26 3380

原创 transformer目标检测 DETR

亮点：位置编码，encoder中加了，decoder中也加了；没用NMS，用的匈牙利匹配；两个注意力自注意力+交叉注意，交叉注意在decoder，object queries做的是qurey；object queries是固定100个；（在某些位置上查询有无物体以及类别）

2024-09-20 23:42:35 453

原创 Batch Normalization

（训练阶段滑动平均；推理阶段使用累计的整体均值和方差）两个可学习的参数，缩放和平移；降低初始权重的敏感性；加速收敛，又快又稳；避免梯度消失与爆炸；

2024-09-20 23:28:52 273

原创让TA说话 - 图片、动画、语音相结合

如何让图片开口说话，或者让视频里的人换一段话？开源的技术已经做的不错了。

2024-03-07 00:13:22 1418

原创 Stable Diffusion 光影艺术字

使用sd制作光影文字效果

2024-02-29 17:40:04 1464 1

原创 Stable Diffusion 相关网站总结

civitAI，sd开源社区，大部分开源模型都从这里下载：lightflow，一键复制流，有很多大神灵活使用sd的例子：

2024-02-22 19:45:50 702

原创 Stable Diffusion 优质图生成技巧

在之前的博客中，为了追求功能的准确，我大都没开各种修复功能，并且都是使用很低的分辨率，这就导致以前博客中的图都不美观。今天专门分享一次如何出优质图、高清图、精致图、看上去就很美的图。

2024-02-22 19:26:54 1625

原创 Stable Diffusion 插件AnimateDiff

AnimateDiff可以制作动图，以插件的方式集成到sd的webUI，本文介绍了AnimateDiff的安装与使用。

2024-02-21 11:16:52 4072

原创 float浮点数转音频文件wav

java要是完成类似的功能就比较复杂。python将numpy.ndarray转为音频文件wav，只需要几行代码。

2024-01-24 11:27:14 974

原创 paddle系列报错 Segmentation fault

这行代码的意思就是配置LD_LIBRARY_PATH这个环境变量，这是临时配置，关闭控制台后就失效了，需要长久生效的配置需要自己改配置表。paddlepaddle_gpu自从2.1.3之后，在一些linux环境中部署总会报错。paddle的cpu版本并不会报错。但是，经过我的实验，python代码中配置，依然会报错。我主要是参考了这两个博客，我简化了指令。

2024-01-23 16:02:05 3165 5

原创 Stable Diffusion ControlNet 与艺术字（2）

如果使用的字体直线多、棱角分明，生成的图中字上的内容和提示词差距越大。比如Office带的娃娃体，可以看到字上面一点儿花的元素都没有，如下图。在笔直的字体上做了一些其他的尝试，也很难把提示内容加进去，我尝试不同的权重组合和提示词，发现最多只带有很少一部分的提示词内容。具体的配置参数写在了最后面，配置主要参考了博主。反向词：NSFW,worst quality,low quality,hand,people,提示词：Beautiful flowers in the sky,8k,realistic,

2024-01-10 19:25:28 1020

Funnyman_Ming的博客