- 博客(25)
- 资源 (3)
- 收藏
- 关注
原创 super point 和super glue
Sinkhorn算法,匹配算法,可导的匈牙利算法,就是交替做行normalization和column normalization,做多次。垃圾箱:关系矩阵多加了一行和一列,用来表示图外的点,谁和这个点匹配了,谁就算作没有匹配上有效的点。
2024-09-23 16:37:39
282
原创 训练lora技巧总结
这样的好处是“抱”这种动作能很好的训练出来,我们本来数据就很少,“新形象1”,抱着,“新形象2”,这样的标注出图时候,pormpt很难精准控制,我猜测背后的逻辑是需要学习的东西更多更难收敛。解释:比如图中出现了3只兔子,不要只标注rabbit,而是要具体说明数量3rabbit,不然出图的时候,没法子控制兔子的数量,也不好控制位置,甚至兔子很容易出现多脚多头。这种风格差异大的图片多了之后,我们lora出图的风格就会不稳定,我自己的体会就是一开始搜集了很多的嫦娥,脸经常糊,有时候山和建筑的风格就差别挺大。
2024-09-22 22:22:51
986
原创 CTC loss 博客转载
这时候我们就可以填表了,表中每个圆圈都是概率值,第一行第一列的数值就是,字符1是类别空格的概率,第二行第一列的数值就是,字符1是类别a的概率。模型预测结果是8*37的大小,换句话说就是,预测出来了8个字符,每个字符的37个类别的概率。一个合法路径就是一种预测结果为正确的情况,每一个合法路径上的概率相乘就是这个路径的概率。英文OCR,37个类别(26个小写字母+10个汉字+空格),最大输出长度8个字符。优化目标是最大化“所有合法路径概率的和”;
2024-09-22 02:31:10
447
原创 SVTR文字识别
论文2.5中说的N nodes,就是输出的类别数量,英文37,中文6625,英文37说的是最简单的英文文字识别任务,不区分大小写,就是26个字母+10个数字+空格;高度下降为一半,宽度不降,是因为高度为度上采用stride=2,宽度上stride=1;就是一个窗口内的Global Mixing,局部的自注意,添加局部范围的信息;就是全局的自注意,类似与transformer,添加全局的信息;BN就是BatchNorm,LN就是layer norm;
2024-09-22 02:13:09
300
原创 ViT模型
经过N层transformer编码器处理后的特征的维度与输入前相同,均为[197,768],我们只使用列表切片的方式提取出类别token,维度为[1,768].进行下一步的类别分类。有小伙伴可能不理解,那不是其它的特征没有用到吗?其实不是,多头注意力机制可以让不同位置的特征进行全面交互,这里输出的类别token和之前输入的类别token早已发生了巨变,这种变化是由其它特征影响的。
2024-09-21 21:20:32
444
原创 MAE 模型
VIT直接在ImageNet-1k训练是82.5%,VIT先在ImageNet-21k上通过MAE的方式预训练,再在ImageNet-1k上Fine-tuning是84,.9%;思想:自监督学习(Self-Supervised Learning),遮住大部分(75%)patches,还原这些patches。除了Fine-tuning,还可以Linear Probing (只训练最后一层。给 Encoder 输入 mask tokens,效果是变差的;
2024-09-21 21:01:23
503
原创 EfficientNet V1 V2
随着图像分辨率的增加,正则化强度也会相应增加,从而避免过拟合;Dropout、RandAugment(图像数据增强)和Mixup(标签图片混合,即透明覆盖)三个方面;Fused-MBConv使用的常规3*3卷积虽然参数更多,但是能更好的适应硬件加速,速度反而更快;搜索Fused-MBConv的配比。网络深度、宽度和图像分辨率,进行了栅格搜索(Grid Search),找到了最优的几种搭配。一种训练策略,从低分辨率图像开始训练,然后逐步增加图像分辨率。
2024-09-21 17:18:20
348
原创 PP-HGNet(High Performance GPU Net)
PP-HGNet(High Performance GPU Net) 是百度飞桨视觉团队自研的更适用于 GPU 平台的高性能骨干网络,该网络在 VOVNet 的基础上使用了可学习的下采样层(LDS Layer),融合了 ResNet_vd、PPHGNet 等模型的优点,该模型在 GPU 平台上与其他 SOTA 模型在相同的速度下有着更高的精度。
2024-09-21 00:36:26
3380
原创 transformer目标检测 DETR
亮点:位置编码,encoder中加了,decoder中也加了;没用NMS,用的匈牙利匹配;两个注意力自注意力+交叉注意,交叉注意在decoder,object queries做的是qurey;object queries是固定100个;(在某些位置上查询有无物体以及类别)
2024-09-20 23:42:35
453
原创 Batch Normalization
(训练阶段滑动平均;推理阶段使用累计的整体均值和方差)两个可学习的参数,缩放和平移;降低初始权重的敏感性;加速收敛,又快又稳;避免梯度消失与爆炸;
2024-09-20 23:28:52
273
原创 Stable Diffusion 相关网站总结
civitAI,sd开源社区,大部分开源模型都从这里下载:lightflow,一键复制流,有很多大神灵活使用sd的例子:
2024-02-22 19:45:50
702
原创 Stable Diffusion 优质图生成技巧
在之前的博客中,为了追求功能的准确,我大都没开各种修复功能,并且都是使用很低的分辨率,这就导致以前博客中的图都不美观。今天专门分享一次如何出优质图、高清图、精致图、看上去就很美的图。
2024-02-22 19:26:54
1625
原创 Stable Diffusion 插件AnimateDiff
AnimateDiff可以制作动图,以插件的方式集成到sd的webUI,本文介绍了AnimateDiff的安装与使用。
2024-02-21 11:16:52
4072
原创 float浮点数转音频文件wav
java要是完成类似的功能就比较复杂。python将numpy.ndarray转为音频文件wav,只需要几行代码。
2024-01-24 11:27:14
974
原创 paddle系列报错 Segmentation fault
这行代码的意思就是配置LD_LIBRARY_PATH这个环境变量,这是临时配置,关闭控制台后就失效了,需要长久生效的配置需要自己改配置表。paddlepaddle_gpu自从2.1.3之后,在一些linux环境中部署总会报错。paddle的cpu版本并不会报错。但是,经过我的实验,python代码中配置,依然会报错。我主要是参考了这两个博客,我简化了指令。
2024-01-23 16:02:05
3165
5
原创 Stable Diffusion ControlNet 与艺术字(2)
如果使用的字体直线多、棱角分明,生成的图中字上的内容和提示词差距越大。比如Office带的娃娃体,可以看到字上面一点儿花的元素都没有,如下图。在笔直的字体上做了一些其他的尝试,也很难把提示内容加进去,我尝试不同的权重组合和提示词,发现最多只带有很少一部分的提示词内容。具体的配置参数写在了最后面,配置主要参考了博主。反向词:NSFW,worst quality,low quality,hand,people,提示词:Beautiful flowers in the sky,8k,realistic,
2024-01-10 19:25:28
1020
原创 Stable Diffusion CLIP
sd主要包含了3大块,VAE、CLIP和UNet。其中CLIP(Contrastive Language-Image Pre-training)主要是用来将提示词转为tokens,通俗的说,就是把文字转化为可以模型可以理解的信息。这些语义信息是77*768大小的向量,在UNet阶段一步一步嵌入进去,这样生成的图片就能附带提示词的内容,嵌入方式为cross attention。对输入text提取text embeddings的方式可以是其他的,目前sd主要使用OpenAI的CLIP。
2024-01-08 16:48:33
1613
原创 Stable Diffusion ControlNet 与艺术字
sd画的图可控性并不高,尤其是文字,比如我们想让sd生成一个带有汉字“王炸”的条幅,sd会生成条幅,但是汉字都是有形体,但是内容是不对的,如图:ControlNet为解决这一问题作出了突出贡献。sd是一种UNet,包含编码和解码的过程,文生图的过程就是字转为带有语义信息的token,并逐步附加到sd的decoder过程中。ControlNet同样也是将输入转为向量,逐步添加到生成过程。
2024-01-04 17:49:56
921
原创 Anaconda 3 下的 Spyder 的汉化报错处理
Anaconda 3 下的 Spyder 的汉化参照原文博客:http://www.lizenghai.com/archives/523.html汉化包下载:https://github.com/kingmo888/Spyder_Simplified_Chinese本人在汉化过程中遇见几个问题,特与大家分享经验。1.运行错误在参照原文博主的方法进行汉化中遇见问题,如下:...
2018-09-10 16:19:35
3723
1
(翻译后)学习信息在决策层上的自动分类
2018-06-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅