自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 扩散模型模型结构整理(持续更新)

扩散模型的原理网上已经有很多解析了,但是目前扩散模型的结构设计以及改进也层出不穷,接下来就介绍一些经典或最新的结构,也是为了促使自己多看论文,快速入门。也欢迎小伙伴推荐补充~

2024-11-16 21:24:50 240

原创 diffusers用法(持续更新)

本文记录的diffusers的用法为版本0.17.0的,不同版本可能会有所不同.

2024-11-15 14:23:32 1079 3

原创 从0阅读diffusers库代码(持续更新)

diffusers库是用stable diffusion一定要用的库之一。但是其实安装了该库,很多时候我也不知道该怎么用,在别人的GitHub的issue里问了很多傻傻的问题,最终思来想去,还是决定从0看一下其中的代码。那么下载好源码之后我们就可以看其中封装的各个类和各个函数了。

2024-06-12 21:43:49 2243

原创 用于文档图像校正的几何表示学习

在文档图像矫正问题中,真实图像与失真图像存在着丰富的几何约束条件。然而,在现存的先进的解决方法中,这些几何约束大多数被忽略了,这大大限制了矫正的性能。为此,我们提出了DocGeoNet进行文档图像矫正,通过引入显式的几何表征。从技术上讲,所提出的几何表征学习中涉及文档图像的两个典型的属性,即3D形状和文本行。我们的动机来自于一种见解:3D形状为矫正一张扭曲的文档图像提供了全局unwarping线索,然而忽略了局部结构;另一方面,文本行互补地为局部图案提供了显示几何约束。

2023-08-20 21:15:20 625 1

原创 场景文本识别中的字符感知采样与校正(Character-Aware Sampling and Rectification for Scene Text Recognition)

CASR!

2022-11-26 01:41:42 1312 1

原创 EAST:一种高效准确的场景文本检测器

EAST!

2022-11-21 20:27:50 1815

原创 char-net:一种用于扭曲场景文本识别的字符感知神经网络

char-net的论文详细解读,来看吧!

2022-11-19 18:48:23 1483 2

原创 自设计loss无backward

loss损失函数相关

2022-11-14 10:54:38 377 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除