自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

白水空空

努力努力再努力

  • 博客(370)
  • 资源 (13)
  • 收藏
  • 关注

原创 【读点论文】Why ReLU networks yield high-confidence predictions far away from the training data and how to

在野外使用的分类器,特别是用于安全关键系统的分类器,不仅应该具有良好的泛化特性,而且应该知道它们何时不知道,特别是远离训练数据进行低置信度预测。我们表明,产生分段线性分类器函数的ReLU型神经网络在这方面失败,因为它们几乎总是产生远离训练数据的高置信度预测。。我们表明,与标准训练相比,这种技术在降低远离训练数据的预测的置信度方面令人惊讶地有效,同时在原始分类任务上保持高置信度预测和测试误差。论文地址:[这个工作指出 ReLU 网络在远离训练数据时会产生高置信度预测,这在安全关键系统中是不可取的。

2025-04-02 19:19:33 745

原创 【读点论文】Lightweight deep learning models for aerial scene classification: A comprehensive survey

由于其广泛的应用,包括自然灾害探测、城市规划、灾害管理和环境监测,航空场景分类近年来受到了广泛的关注。过去,研究人员主要依靠手工制作的基于特征的方法,如颜色直方图、尺度不变特征变换(SIFT)和梯度方向直方图。随着技术的进步,除了这些手工制作的基于特征的方法之外,还出现了机器学习和深度学习方法。机器学习模型通常具有浅层结构,而深度神经网络(DNNs)拥有能够从图像中提取高质量特征表示的更深层架构。为了应对这些挑战,研究人员开发了轻量级深度学习模型,这些模型与传统模型一样高效,但需要的资源更少。这种高效、轻量

2025-03-28 14:05:53 618

原创 【读点论文】 Fine-grained Recognition with Learnable Semantic Data Augmentation 在特征空间中对样本增强,构建元学习框架,依任务选增强

核心思想是在特征空间中对训练样本进行增强,而非在图像空间中进行传统的数据增强操作。通过这种方式,可以避免图像级数据增强可能带来的判别区域损失问题。具体来说,该方法通过协方差预测网络(CovNet)预测每个训练样本的语义方向,然后沿着这些方向在特征空间中对样本进行变换,从而生成多样化的增强样本。这种方法不仅能够保留图像中的判别性细节,还能提高模型对细粒度类别差异的识别能力。对于每个训练样本,其深度特征被表示为向量,协方差预测网络预测该样本的协方差矩阵,该矩阵定义了特征空间中的语义方向。通过在这些方向上对特征进

2025-03-26 19:37:15 917

原创 【读点论文】面向识别的长弯曲文本预处理算法,有点局限

在特定场景下、例如书籍扫描时,长文本的弯曲性对于整个文本图像的识别准确率影响较大,因此提升长弯曲文本识别的准确率具有重要的意义。本文提出长弯曲文本处理模块(LCTP),分别从消除干扰信息和降低弯曲程度两个方面来降低对文本识别准确率的影响。将 LCTP 应用在不同的主流 OCR框架,在手动采集的 Long Curve Text 数据集的验证中,均取得了不错的识别效果。

2025-03-25 11:19:22 809

原创 【读点论文】Deep Metric Learning for Few-Shot Image Classification: A Selective Review

在Matching networks论文中对训练周期的定义上提出了episodes的概念,为了区别大数据训练的epochs,在episodes周期里,都是为了服务于few-shot任务的子类别样本训练,这个子类别就是区别于epochs中全类别子样本训练。很多meta-leaming中的任务也喜欢用episodes这个词汇,而对应神经网络中的minibatch是比较合适的。元学习旨在训练一个模型,使其能够快速适应新的任务。

2025-03-21 14:57:51 825

原创 【读点论文】Data Augmentation in Classification and Segmentation: A Survey and New Strategies

深度学习模型,像CNN,容易过度拟合。在这项工作中,我们调查了数据增强技术,特别是最近在采用数据增强技术的图像分类和分割方面的研究,这些技术对于深度学习模型克服过拟合问题并实现更好的性能至关重要。**此外,我们提出了一种几何增强技术,即RLR(随机局部旋转),专注于操纵图像中的局部信息,而不增加非原始像素值**。定量和定性实验结果表明,在分类和一些分割任务中,RLR可以比传统的旋转技术更有效,因此,很好地补充了现有的数据增强技术。

2025-03-20 18:16:43 850

原创 pytorch中有哪些损失函数

每一个样本经过模型后会得到一个预测值,然后得到的预测值和真实值的差值就成为损失(当然损失值越小证明模型越是成功),我们知道有许多不同种类的损失函数,这些函数本质上就是计算预测值和真实值的差距的一类型函数,然后经过库(如pytorch,tensorflow等)的封装形成了有具体名字的函数。在机器学习中,我们知道输入的feature(或称为x)需要通过模型预测出y,此过程称为向前传播,而要将预测与真实值的差值减小需要更新模型中的参数,这个过程称为向后传播其中我们损失函数就基于这两种传播之间

2025-03-18 16:49:40 697

原创 【读点论文】SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting特征对齐,将局部特征和长程依赖结合起来用于定位与识别

场景文本识别需要在自然图像中查找和识别文本,近年来由于其在自动驾驶、智能导航和关键实体识别等领域的实际应用而受到了广泛关注。尽管最近取得了进展,但由于存在各种背景噪声以及文本形状、颜色、字体、语言和布局的巨大差异,文本识别仍然是一个复杂且尚未解决的问题。经典的场景文本识别方法通常将文本识别视为两个独立的任务,首先找到文本的位置,然后由识别器将检测到的区域转换为字符序列。然而,这种流程有几个缺点,包括(1)文本检测和识别之间的错误累积,即文本识别的性能对文本检测的结果非常敏感;(2)分别优化两个任务导致的次优

2025-02-21 13:46:32 1052

原创 【读点论文】SwinTextSpotter: Scene Text Spotting via Better Synergy between TD and TR将文本定位与识别结合在一起

在文本检测任务中,表 5 和表 6 中的结果表明,SwinTextSpotter 在两个数据集上都可以达到 88% 的 H 均值,在 Total-Text 和 SCUT-CTW1500 上分别比之前最先进的方法高出 1.0% 和 3.3%。对于端到端场景文本识别任务,根据表 5,SwinTextSpotter 在 TotalText 上的表现明显优于之前的方法,F 测量值为 74.3%,比 ABCNet v2 高 3.9%,比 MANGO 高 1.4%。通过多阶段的细化,该检测器可应用于任何规模的文本。

2025-02-20 14:23:07 971

原创 【读点论文】Rewrite the Stars将svm的核技巧映射到高维空间,从数理逻辑中丰富特征维度维度

文章指出星操作能够将输入映射到一个非常高维的非线性特征空间中,类似于多项式核函数。通过重写和重构星操作,作者发现这一看似简单的操作可以在紧凑的特征空间内生成大约 $(\frac{d}{\sqrt 2})^2$ 个线性独立维度。**这与传统的增加网络宽度(即通道数量)来提高模型复杂度的方法不同,而是更像一种进行跨通道特征乘法的核函数**。该研究试图解决的问题是如何在不牺牲精度的情况下显著减少计算成本和参数量,特别是在移动设备上的部署问题。核心是 “星操作”(star operation,即元素级乘法)。作者认

2025-02-14 17:50:41 1048

原创 【读点论文】Run, Don’t Walk: Chasing Higher FLOPS for Faster Neural Networks使用部分卷积计算,减少特征图访存通信来实现低延迟推理

FasterNet架构:4个阶段,每阶段前通过嵌入层(4x4 Conv,stride 4)或下采样层(2x2 Conv,stride 2)调整分辨率。FasterNet块:由PConv + 两个PWConv组成,中间加入归一化(BN)和激活(GELU/ReLU),残差连接提升训练稳定性。归一化与激活:仅在中间PWConv后使用BN,避免过多非线性层影响特征多样性。还推出了基于PConv的通用FasterNet,它在各种设备和视觉任务上实现了一流的速度和精度平衡。我们希望我们的PConv和FasterNet能

2025-02-12 16:00:30 863

原创 【读点论文】YOLC: You Only Look Clusters for Tiny Object Detection in Aerial Images还原高分辨率热图进行小目标提点

从航拍图像中检测物体面临着巨大的挑战,原因如下:1)航拍图像通常尺寸非常大,一般有数百万甚至数亿像素,而计算资源有限。2)小物体尺寸导致有效检测的信息不足。3)物体分布不均匀导致计算资源浪费。为了解决这些问题,我们提出了YOLC(You Only Look Clusters),这是一个基于无锚物体检测器CenterNet的高效框架。。此外,我们使用高斯沃瑟斯坦距离(GWD)修改回归损失以获得高质量的边界框。检测头采用可变形卷积和细化方法来增强对小物体的检测。

2025-02-06 11:30:24 597

原创 【读点论文】Fast Hardware-aware Neural Architecture Search通过部署反馈设置搜索空间的约束条件,将搜索分为两个阶段类似于奇异值分解优化复杂度

为大量硬件设计准确而高效的卷积神经架构是一项挑战,因为硬件设计复杂多样。本文解决了神经架构搜索 (NAS) 中的硬件多样性挑战。与以前在小型人工设计的搜索空间上应用搜索算法而不考虑硬件多样性的方法不同,我们提出了 HURRICANE,它在更大的搜索空间和两阶段搜索算法上探索自动硬件感知搜索,以有效地为不同类型的硬件生成定制模型。在 ImageNet 上进行的大量实验表明,在三种类型的硬件上,在相同的延迟约束下,我们的算法优于最先进的硬件感知 NAS 方法。此外,所发现的架构比目前最先进的高效模型实现了更低的

2025-02-05 14:14:26 1176 5

原创 【读点论文】PROXYLESSNAS: DIRECT NEURAL ARCHITECTURE SEARCH ON TARGET TASK AND HARDWARE将算法与硬件结合优化速度与精度

神经架构搜索 (NAS) 通过自动设计有效的神经网络架构产生了巨大影响。然而,传统 NAS 算法的计算需求过高(例如 104 GPU 小时),使得直接在大规模任务(例如 ImageNet)上搜索架构变得困难。可微分 NAS 可以通过网络架构的连续表示来降低 GPU 小时的成本,但存在高 GPU 内存消耗问题(相对于候选集大小呈线性增长)。因此,他们需要利用代理任务,例如在较小的数据集上进行训练,或者只使用几个块进行学习,或者只进行几个时期的训练。这些在代理任务上优化的架构并不能保证在目标任务上达到最优。在本

2025-01-23 19:19:32 1046

原创 【读点论文】NASNet:Learning Transferable Architectures for Scalable Image Recognition以模块为单位进行,模型是维度变化的技术

这篇论文由Google Brain团队撰写,主要研究如何通过神经架构搜索(NAS)直接在数据集上学习模型架构。论文的核心贡献是设计了一个新的搜索空间(NASNet搜索空间),使得在小数据集上学习到的架构可以迁移到更大的数据集上。这篇文章提出了在小数据(CIFAR-10)上学习一个网络单元(Cell),然后通过堆叠更多的这些网络单元的形式将网络迁移到更复杂,尺寸更大的数据集上面。因此这篇文章的最大贡献便是介绍了如何使用强化学习学习这些网络单元。

2025-01-21 15:38:21 1160 1

原创 【读点论文】Efficient and Accurate Arbitrary-Shaped Text Detection with PA 结合连通域分析和嵌入特征距离度量,通过 BFS 扩展实例边界

像素聚合通过预测相似性向量来指导像素的聚合,从而实现对文本区域的精确分割。目标:在预测出文本区域、文本核和相似性向量后,PA方法的目标是将文本区域中的像素精确地聚合到对应的文本核上,重建完整的文本实例。核心思想:利用相似性向量来衡量文本像素与文本核之间的相似度,将相似度高的像素聚合到同一个文本核上。相似性向量能够捕捉文本像素与文本核之间的特征相似性,为像素的聚合提供指导。为了加快网络的速度,对resnet18得出的特征图的维度进行了减小,对应上图的压缩过程。FPEM是一个 U形模组,由两个阶段组成,up-s

2025-01-15 14:19:56 951

原创 【读点论文】ODM: A Text-Image Further Alignment Pre-training Approach for OCR结合文本和图像特征去预训练主干网络。需要更多公开信息

使用ResNet50作为图像编码器提取视觉特征,6层Transformer作为文本编码器提取文本特征,然后通过交叉注意力机制将文本特征与图像特征进行交互,最后利用简单的解码器(FPN层上采样和1x1卷积)重建去风格化的二值图像。在ODM(OCR-Text Destylization Modeling)中,交叉注意力机制是实现文本与图像特征对齐的关键技术之一。促进特征对齐:通过交叉注意力机制,模型能够将文本特征与图像特征进行有效对齐,使得文本提示能够更好地引导图像特征的提取和重建。这对于OCR任务中的文本检测

2025-01-14 18:58:44 639 1

原创 【读点论文】Fourier Contour Embedding for Arbitrary-Shaped Text Detection通过预测傅里叶自由度,系数来拟合任意形状轮廓线

FCENet的一大亮点就是在任意不规则形状的文本场景上表现优异,这得益于它采用了可变形卷积 和傅里叶变换技术。 除此之外,FCENet还具有后处理简单和高。核心在于利用傅里叶变换将复杂的曲线简化为少量的频率成分(即傅里叶系数),然后在需要时再通过逆傅里叶变换恢复出原始曲线。这种方法可以有效地压缩信息并且便于模型训练。同时,为了确保最终输出的是有意义的几何形状,还需要进行一系列的几何变换和筛选操作,比如 NMS 和最小外接矩形计算。这些技术共同作用,使得可以从神经网络的输出中准确地提取出文本区域的多边形表示。

2025-01-13 15:20:51 911

原创 【读点论文】DepGraph: Towards Any Structural Pruning通用的结构化剪枝框架,处理结构化剪枝的图依赖问题

提出了一种非深度图算法DepGraph,实现了架构通用的结构化剪枝,适用于CNNs, Transformers, RNNs, GNNs等网络。DepGraph能够自动地分析复杂的结构耦合,从而正确地移除参数实现网络加速。包括用于图像的 ResNe(X)t、DenseNet、MobileNet 和 Vision Transformer、用于图形的 GAT、用于 3D 点云的 DGCNN 以及用于语言的 LSTM,并证明,即使使用简单的基于规范的标准,所提出的方法也能始终如一地产生令人满意的性能。

2025-01-09 19:14:09 905

原创 【读点论文】ALightweightFusionStrategyWithEnhancedInterlayerFeatureCorrelationforSOD新的特征融合模块,融合层间特征和分级空间关系

特征金字塔的构建是许多计算机视觉任务中至关重要的一步,是现代检测器不可或缺的组成部分,是解决多尺度问题的基础。**对于较小的目标,特征图往往只包含几个甚至一个像素的有效信息。因此,研究特征融合方法对于准确表示小目标的特征信息尤为重要。FPN构建了一条自上而下的路径,将各个层次的特征结合起来,实现多尺度特征融合**。PANet 在FPN的基础上引入了一条自下而上的路径,有助于将高分辨率信息与更强的语义特征融合。随后,NAS-FPN 和BiFPN 被提出来增强多尺度特征的融合。与许多专注于跨尺度连接的研究不同,

2025-01-09 18:30:19 979

原创 【读点论文】Visual Text Generation in the Wild先用多模态大模型找出合理区域和内容,再用扩散模型在区域内生成自然的文本图像,应该还是大厂的游戏

提出一种可在真实场景下生成高质量文本图像的方法。该方法需要满足三个关键标准:保真度、合理性和实用性。提出了一种名为SceneVTG的文本图像生成器,采用两阶段范式。第一阶段使用多模态大语言模型推荐合理的文本区域和内容,第二阶段使用条件扩散模型生成文本图像。SceneVTG在保真度和合理性方面显著优于传统的基于渲染和最近的基于扩散的方法。生成的图像对于文本检测和文本识别等任务具有更高的实用性。研究中使用了开源数据集和代码。

2024-12-25 11:23:52 702 4

原创 【读点论文】Shape Robust Text Detection with Progressive Scale Expansion Network通过GT生成核增大类间距,通过逐渐扩展核学习GT。

为了证明我们提出的 PSENet 的有效性,我们在四个竞争性基准数据集上进行了广泛的实验,包括 ICDAR 2015 、ICDAR 2017 MLT 、CTW1500 和 Total-Text 。在这些数据集中,**CTW1500 和 Total-Text 专门用于曲线文本检测**。具体来说,在 CTW1500(一个包含长曲线文本的数据集)上,我们的表现比最先进的结果高出 6.6%,我们的实时模型在 27 FPS 下实现了相当的性能(74.3%)。此外,提出的 PSENet 在多方向和多语言文本数据集上也

2024-12-20 16:36:13 765

原创 【读点论文】MNN: A UNIVERSAL AND EFFICIENT INFERENCE ENGINE将模型适配到各种终端硬件的解决方案,加速,量化,保精度

引入 Backend 抽象模块,将所有硬件平台(例如 GPU、CPU、TPU)和软件解决方案(例如 OpenCL、OpenGL、Vulkan)封装到统一的 Backend 类中。通过 Backend 类,资源管理、内存分配和调度与具体的算子实现分离开来。Backend 类由几个抽象函数组成,如图 5 所示。对于内存管理,onAcquireBuffer 负责为 tensor 分配新的内存,onReleaseBuffer 负责释放 tensor。对于算子实现,onCreate 负责为每个算子创建执行实例。

2024-12-13 14:57:40 1103

原创 【读点论文】CentripetalText: An Efficient Text Instance Representation STD破除标注唯一论,添加松弛区域增强模型泛化性能。像素聚类各形态文本

提出了一种名为 CentripetalText (CT) 的高效文本实例表示,**它将文本实例分解为文本核和向心偏移的组合。具体来说,我们利用向心偏移来实现像素聚合,将外部文本像素引导到内部文本核**。松弛操作被集成到向心偏移的密集回归中,允许在范围内而不是特定值中进行正确的预测。 **我们的方法中文本轮廓的便捷重建和对预测误差的容忍分别保证了高检测精度和快速推理速度。此外,我们将文本检测器缩减为一个提案生成模块,即向心文本提案网络(CPN),取代 Mask TextSpotter v3 中的分割提案网络(

2024-12-05 15:01:02 876

原创 【读点论文】Real-Time Scene Text Detection with Differentiable Binarization and ASF加入多尺度设置,优化了DBnet

本文提出了一种用于检测任意形状场景文本的新框架,从两个方面改进了基于分割的场景文本检测方法:(1)**提出了可微分二值化模块,将二值化过程集成到训练阶段**;(2)提出的 ASF 模块有效增强了分割网络的尺度鲁棒性。两个模块均显著提高了文本检测准确率。**实验验证了我们的方法(ResNet-50 主干)在速度和准确率方面在五个标准场景文本基准上始终优于最先进的方法。特别是,即使使用轻量级主干(ResNet-18),我们的方法也可以在所有测试数据集上实现具有实时推理速度的竞争性性能**。

2024-12-02 13:55:58 834

原创 【读点论文】FAST: Faster Arbitrarily-Shaped Text Detector with Minimalist Kernel高效文本检测器,适配多种文本形状

在本研究中,我们提出了一种更快的任意形状文本检测器 FAST。为了实现高效率,我们提出了一种极简内核表示 (MKR),以及 GPU 并行后处理——文本扩张,使我们的模型可以完全在 GPU 上运行。此外,**我们设计了一个专门针对文本检测的搜索空间和奖励函数,并搜索了一系列对文本检测友好的高效骨干网络(即 TextNet)**。在几个具有挑战性的数据集上进行的大量实验表明,配备这两种设计,我们的 FAST 在检测性能和推理速度之间实现了比以前更好的平衡。我们希望我们的方法可以成为文本相关实时应用的基石。

2024-11-29 17:02:58 820

原创 【读点论文】Text Detection Forgot About Document OCR,很实用的一个实验对比案例,将科研成果与商业产品进行碰撞

表 3 所选文本检测方法与 MMOCR 的 SAR 和 MASTER 默认模型、微调 SAR 以及 docTR 的 CRNN 默认模型相结合,在 FUNSD 和 CORD 上的识别性能比较,以 CLEval 指标为依据。“P”、“R”、“F1”和“S”分别代表端到端精度、召回率、F1 分数和识别分数。与 SAR 类似,预训练的 MASTER 模型 与 TextBPN++ 结合效果最佳,在 FUNSD 上实现了 83.00% 的 F1 分数,在 CORD 上实现了 93.26% 的 F1 分数。

2024-11-21 16:16:44 993

原创 图片格式小赏,图像有损压缩得与失

PNG是一种支持无损压缩的图像格式,这意味着在转换过程中原始图像的数据不会丢失,转换后的PNG图像可以完全恢复到原始状态。但是JPEG压缩技术十分先进,它用有损压缩方式去除冗余的图像数据,在获得极高的压缩率的同时能展现十分丰富生动的图像,换句话说,就是可以用最少的磁盘空间得到较好的图像品质。网络上传输不够高效。JPEG是Joint Photographic Experts Group(联合图像专家组)的缩写,文件后辍名为".jpg"或".jpeg",是最常用的图像文件格式,由一个软件开发联合会组织制定,

2024-11-15 17:50:46 906

原创 【读点论文】TransUNet: Transformers Make Strong Encoders for Medic融合全局和局部语义信息的一个应用研究,CNN+Transformer结构

Transformer 被称为具有强大先天自注意力机制的架构。在本文中,我们**首次研究了 Transformer 在一般医学图像分割中的应用。为了充分利用 Transformer 的强大功能,我们提出了 TransUNet,它不仅通过将图像特征视为序列来编码强大的全局上下文,而且还通过 U 形混合架构设计充分利用了低级 CNN 特征**。作为主流基于 FCN 的医学图像分割方法的替代框架,TransUNet 的性能优于各种竞争方法,包括基于 CNN 的自注意力方法。

2024-11-14 09:13:05 912

原创 【读点论文】An End-to-End Trainable Neural Network for Image-based Sequence Rec轻量的长序列条形文本识别模型,很经典,很实用

因为 RNN 有梯度消失的问题,不能获取更多上下文信息,所以 CRNN 中使用的是 LSTM,LSTM 的特殊设计允许它捕获长距离依赖。这里采用的是两层备 256 单元的双向 LSTM 网络。通过上面一步,我们得到了 40 个特征向量,每个特征向量长度为 512,在 LSTM 中一个时间步就传入一个特征向量进行分类,这里一共有 40 个时间步。我们。

2024-11-01 18:02:03 965

原创 构建旋转变换矩阵对二维到高维空间的线段点进行旋转

旋转矩阵:在高维空间中,旋转可以通过多个低维旋转的组合来实现。每个旋转矩阵对应于一个二维平面的旋转。Python 实现:通过定义旋转矩阵并应用这些矩阵,可以实现高维空间中的旋转操作。- **复合旋转**:如果需要在多个平面上进行旋转,可以依次应用多个旋转矩阵。这种方法可以扩展到任意维度的空间,并且可以灵活地处理复杂在使用如PIL (Pillow), OpenCV (cv2), PyTorch, 和 TensorFlow 这样的库处理图像时,理解通道维度的定义是非常重要的。

2024-10-31 18:39:00 687

原创 【读点论文】MRZ code extraction from visa and passport documents using convoluti...护照机读区的识别,行文很适配,缺少数据和实现

在金融、移民和行政等领域,护照的数字副本在身份和信息验证以及欺诈检测中发挥着越来越重要的作用。然而,由于护照和签证布局不统一,从护照和签证中自动检索信息可能很困难。 姓名、出生日期、到期日期和签发日期等信息以各种格式出现在不同签发机构的护照和签证上,并且出现在不同的位置。此外,与可以检查真实性的实体护照和签证不同,这些文件的数字副本伪造和篡改的门槛较低。简单的图像编辑软件可用于更改护照或签证上的关键细节以进行欺诈。护照和签证上的机读区 (MRZ) 对于应对这两个挑战至关重要。为了验证信息,MRZ 以预先指定

2024-10-11 19:20:49 1271

原创 【读点论文】Character Region Awareness for Text Detection通过预训练合成数据实现字符级的弱监督训练,加入分水岭实现字符分割,对连接类的语种不具适配性

我们提出了一种名为 CRAFT 的新型文本检测器,即使没有给出字符级注释,它也可以检测单个字符。所提出的方法提供了字符区域得分和字符亲和力得分,它们一起以自下而上的方式完全覆盖各种文本形状。由于提供字符级注释的真实数据集很少见,我们提出了一种弱监督学习方法,该方法从临时模型生成伪 GT**。CRAFT 在大多数公共数据集上表现出最佳性能,并通过在无需微调的情况下展示这些性能来展示泛化能力。作为我们未来的工作,我们希望以端到端的方式使用识别模型训练我们的模型,以查看 CRAFT 的性能、稳健性和泛化性是否

2024-09-30 10:43:26 975 1

原创 【读点论文】Self-supervised Character-to-Character Distillation for Text Recognition通过连通域分割字形结构的自监督识别方法

本文提出了一种新的字符级自监督文本识别方法,称为 CCD,该方法通过保持字符区域的成对对齐来确保在灵活增强的情况下字符到字符的表示一致性。与现有的序列到序列自监督学习模型不同,CCD 将划定的字符结构作为表示学习的基本项目,并提出了一种有效的增强策略来丰富局部字符区域的多样性。最终,CCD 在提取的特征表示的鲁棒性和通用性方面表现出显着的改进,并在三个与文本相关的任务上刷新了最先进的性能。

2024-09-27 17:41:03 1012

原创 【读点论文】Self-supervised Implicit Glyph Attention for Text Recognition 一种自监督隐式字形注意力方法对齐字形结构,无需字符级标注

在本文中,我们提出了一种基于注意力机制的 STR 新方法,即自监督隐式字形注意力 (SIGA)。 SIGA 克服了人工进行字符级标注的困难,通过联合自监督文本分割和隐式注意力对齐,将文本图像的字形结构描绘为注意力图的监督。然后,学习到的字形注意力会鼓励文本识别网络关注字形的结构区域,以提高注意力的正确性。最后,大量实验表明,SIGA 在上下文和非上下文基准上均取得了最佳性能。由于注意力机制能够提取字符级表示,因此已成为场景文本识别 (STR) 方法中事实上的模块。这些方法可以归纳为基于隐式注意力和基于监督注

2024-09-26 09:37:38 995

原创 【读点论文】PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Doc...逐渐有标准去构建基础工程

此外,我们有能力支持更多样化的训练策略,例如基于图像的知识提取。对于预先存在的多模态数据集(如 OBELICS 和 MMC4 ),我们通过直接处理为每个文档生成一个“整体图像”,并将原始的基于文本的列表结构转换为统一的交错 markdown 格式。鉴于我们的数据集来源多样,且涉及的流程复杂,我们数据集中的每个样本都附有许可证字段,其中指定了数据的许可条款。此外,我们从纯文本的 markdown 文件过渡到带有内容图像的交错格式,并提供“整体图像”,重新捕获 NOUGAT 数据集构建中丢失的多模态信息。

2024-09-23 19:43:40 1072

原创 【读点论文】Vary: Scaling up the Vision Vocabulary for Large Vision-Lang...构建更泛化的中文视觉语言词表,继承了SAM和CLIP知识

此外,我们将每个文档页面的文本基本事实转换为 mathpix markdown 样式以统一格式。通过此构建过程,我们获得了 50 万个英文页面和 40 万个中文页面。部分样本如图 4 所示。图4:合成数据可视化。我们使用pdflatex来渲染文档,使用pyecharts/matplotlib来渲染图表。文档数据包括中英文文本、公式、表格等。图表数据包括中英文条形图、折线图、饼图、组合图等。语义关联图渲染。在第 3.2.2 节中,我们批量渲染图表数据来训练新的词汇网络。

2024-09-20 10:51:34 1150

原创 【读点论文】Text Recognition in the Wild: A Survey 非常纯粹的OCR研究,专业细致,脉络清晰

文本是用于记录、交流或传承文化的符号系统。作为人类最具影响力的发明之一,文本在人类生活中发挥着重要作用。具体而言,文本所携带的丰富而精确的语义信息在各种基于视觉的应用场景中都非常重要,例如图像搜索 、智能检测 、工业自动化 、机器人导航 和即时翻译 。因此,自然场景中的文本识别引起了研究人员和从业人员的关注,最近的“ICDAR 稳健阅读竞赛”的出现就表明了这一点 。识别自然场景中的文本,也称为场景文本识别 (STR),通常被视为光学字符识别 (OCR) 的一种特殊形式,即基于相机的 OCR。尽管扫描文档中

2024-09-18 19:19:31 2072

原创 【读点论文】General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model很有潜力的一个项目,希望有更多的开发者赋能,文档更完善

此外,为了进一步提升 GOT 的实用性,我们还采用了细粒度 OCR 功能以提高交互性,针对超高分辨率图像(例如超过 2K)的动态分辨率策略,以及多页 OCR 技术来缓解 PDF 图像-文本对中分页困难的问题(例如,.tex 文件中的分页符)。图10:我们并没有特别为GOT引入除中文和英文之外的额外OCR能力,但我们爬取的PDF数据中可能含有少量其他语言的文字,导致GOT看似具备识别其他语言的能力,但我们无法保证其他语言的OCR质量,因此如果需要该功能,建议使用相应数据对模型进行微调。

2024-09-14 16:33:05 2237

原创 【读点论文】WEAKLY-SUPERVISED TEXT INSTANCE SEGMENTATION 通过文本转录信息就能实现字符实例分割,看示例效果可以,期待源码开放解析

由于分割模块的伪标签来自识别器生成的注意力图,如果识别器对文本实例位置的认识有错误,细化模块将不会产生有效的伪标签,如图 6 所示。此外,正如中间一行所示,一个有趣的观察是,对于像“C”、“O”和“D”这样的文本实例,它们初始注意力的细化有时会被它们自己的空心结构误导(这是不可避免的),并且模型需要长时间的联合训练才能摆脱这种空心陷阱。因此,当识别模块和分割模块进行联合训练时,识别器生成的注意图逐渐学会更接近相应文本实例的形状(如图 7(c)和图 7(d)所示),从而为分割模块提供质量更好的伪标签。

2024-09-11 19:14:34 1155

2021-2022年的高精度模型,swin transformer.convnext等

目前Transformer应用到图像领域主要有两大挑战: 视觉实体变化大,在不同场景下视觉Transformer性能未必很好 图像分辨率高,像素点多,Transformer基于全局自注意力的计算导致计算量较大 针对上述两个问题,我们提出了一种包含滑窗操作,具有层级设计的Swin Transformer。 其中滑窗操作包括不重叠的local window,和重叠的cross-window。将注意力计算限制在一个窗口中,一方面能引入CNN卷积操作的局部性,另一方面能节省计算量。 ConvNeXt并没有特别复杂或者创新的结构,它的每一个网络细节都是已经在不止一个网络中被采用。而就是靠这些边角料的互相配合,却也达到了ImageNet Top-1的准确率。它涉及这些边角料的动机也非常简单:Transformer或者Swin-Transformer [3]怎么做,我也对应的调整,效果好就保留。当然这些边角料的摸索也是需要大量的实验数据支撑的,是一个耗时耗力耗资源的过程。通过对ConvNeXt的学习,我等调参侠不仅可以学习到诸多的炼丹经验,还可以一探其背后原理.

2023-02-04

轻量化混合(卷积和transformer)网络,发论文的热点

CNN的成功依赖于其两个固有的归纳偏置,即平移不变性和局部相关性,而视觉Transformer结构通常缺少这种特性,导致通常需要大量数据才能超越CNN的表现,CNN在小数据集上的表现通常比纯Transformer结构要好。 CNN感受野有限导致很难捕获全局信息,而Transformer可以捕获长距离依赖关系,因此ViT出现之后有许多工作尝试将CNN和Transformer结合,使得网络结构能够继承CNN和Transformer的优点,并且最大程度保留全局和局部特征。 Transformer是一种基于注意力的编码器-解码器结构,最初应用于自然语言处理领域,一些研究最近尝试将Transformer应用到计算机视觉领域。 在Transformer应用到视觉之前,卷积神经网络是主要研究内容。受到自注意力在NLP领域的影响,一些基于CNN的结构尝试通过加入自注意力层捕获长距离依赖关系,也有另外一些工作直接尝试用自注意力模块替代卷积,但是纯注意力模块结构仍然没有最先进的CNN结构表现好。

2023-02-03

mobilenet系列V1-V3

MobileNet网络是由google团队在2017年提出的,专注于移动端或者嵌入式设备中的轻量级CNN网络。相比传统卷积神经网络,在准确率小幅降低的前提下大大减少模型参数与运算量。(相比VGG16准确率减少了0.9%,但模型参数只有VGG的1/32) MobileNet v2网络是由google团队在cvpr2018年提出的,相比MobileNet v1网络,准确率更高,模型更小。 MobileNet v3发表于eccv2019年,该v3版本结合了v1的深度可分离卷积、v2的Inverted Residuals和Linear Bottleneck、新添加了SE模块,利用NAS(神经结构搜索)来搜索网络的配置和参数。

2022-06-05

shufflenetV1

入门理解级,了解shufflenet的核心内容

2022-06-05

图像分类方向的研究写作,中文学报写作格式,从数据集,经典网络角度分析。

从早期生物神经网络研究,到神经网络从实现深度化,模块化,引入注意力机制,再到实现高效化神经网络。这个时间节点比较火热的autoML,神经架构搜索技术等了解图像分类不仅仅只需要精度。

2022-06-05

人脸识别综述及应用,了解一下

多多交流,人脸识别,学习路上小插曲

2022-05-01

百度发文,pp-LCnet网络,pp-PicoDet算法,pp-shitu应用

组会汇报,学习讨论

2022-05-01

yolov2&deepid.pptx

人脸检测出发

2022-01-07

基于深度学习的图像语义分割分类(ISSbDL).xmind

基于深度学习的图像语义分割分类(ISSbDL).xmind

2021-12-21

deeplab系列,一种语义分割的选择.pptx

deeplab系列,一种语义分割的选择.pptx

2021-12-17

生成对抗网络与变种.pptx

生成对抗网络学习了解,分享

2021-12-12

分治法求众数.pptx

逐步讲解分治法求解众数。原为课程分享内容。

2021-12-03

卷积神经网络.pptx

对于卷积神经网络得概述与在计算机视觉的应用,学习分享,ppt制作

2021-09-29

自然语言处理,推荐系统答辩PPT.pptx

基于TF-IDF算法,结合simhash算法,中文分词等一些技术要点概述。应用了开源hanlp中文处理包

2021-09-11

白水空空-爬虫概论.pptx

可用于技术分析讲解,爬虫知识了解,使用效果和使用流程的预览。一些基本配置与使用均有分享和讨论,积极与博主沟通,完善相关文档

2021-09-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除