自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 增大OCR模型输入尺寸,基于读光convnext微调

但是也有隐患,CNN学习的学习最后是用1维度高度映射全图,现在输出是2维度(映射是图片的上部分和下部分)求平均成1维度,这里面的会不会有信息的丢失,最后的实验结果也是很差,准确率直接崩了。最后采取的方法也很简单,其实只需要把第一层的CNN放大,后面的层简单的加载预训练权重,而第一层模型的权重该如何加载呢,以下是两种deepseek给出的,我采用了第二种。原预训练模型的输入时32,800,虽然这满足大多数场景的行文本识别,但是在遇到图片高度大于200时,图片resize 会造成是真,导致识别效果不佳的。

2025-06-19 18:15:05 408

原创 图像处理基础:格式转换、比较与保存的实用指南

在计算机视觉和图像处理中,正确理解颜色空间、数组比较和文件保存是开发者的基本功。

2025-03-13 13:51:00 305

原创 当OCR模型遭遇词汇表更新:微调维度不匹配的解决方案

在OCR模型的迭代升级过程中,当我们需要扩展识别字符集(例如新增生僻字或特殊符号)时,会遇到一个典型的技术挑战:预训练模型的分类层维度与更新后的词汇表长度不匹配。

2025-02-25 14:59:07 211

原创 文档OCR场景中,检测一个目标框包含多行文本导致ocr错误解决方案

kernel和iterations需要针对不同场景进行微调,可以引入自适应参数选择机制总的来说,re_detect是一个实用的OCR检测优化方法,能够提升OCR在文档场景中的识别精度。希望这篇文章能为从事OCR任务的工程师提供有价值的参考!如果你对re_detect方法感兴趣,欢迎交流与讨论!

2025-02-07 15:46:31 441

原创 解决 pycharm dubug 跳转到 remote source 问题

分析问题:应该是把project 文件识别成了 静态库 文件(可能是pip install -e .进行安装的第三方库)导致。edit config配置 path mapping:本地project 根目录到 服务器对应的根目录。网上有些人说用2021pycharm 版本可以解决,我嫌麻烦没有采用。参考另一种方法,修改要debug 的脚本的。

2024-01-15 17:44:07 675 2

原创 Warning: failed to read path from javaldx

UnstructuredFileLoader 去加载一个匹配到的doc格式文档(使用它的load方法)由于这个方法封装的。后面直接报 docx.opc.exceptions.PackageNotFoundError: Package not found at '/tmp/tmp598zj3f2/找到linux 用户home目录下的.config 文件夹下的libreoffice,修改这个文件夹权限就可以了。这个bug 来源于我调用langchain 里的。在修改了一大堆权限后还是没用。

2023-11-18 15:16:31 754 1

原创 pyautogui.screenshot截图转np结果全为0原因

在做csgo的自瞄脚本的时候,我用的截图办法是 pyautogui.screenshot,因为它速度比imaggrap要快太多了。但是在专成np.array时 img = pyautogui.screenshot(region=[LEFT, TOP, SCREENSHOT_W, SCREENSHOT_H]) img=np.array(img)得到的数组是全为0的,经过一系列对比发现 pyautogui.screenshot的返回值是PIL.Image类。正常来说就是通过np。array来转

2022-01-10 19:16:11 1116

原创 一张标注好的图片(有txt)分成四块加生成新的针对yolo格式的txt标注信息

平时得到的图片大多数会比较大,输入网络会造成参数过多且有时候图片冗余信息过多import torchimport osimport numpy as npimport xml.etree.ElementTree as ETimport shutilimport cv2 as cvdef GetFileList(dir, fileList): newDir = dir if os.path.isfile(dir): last=os.path.spli.

2021-12-22 14:40:57 1033 5

原创 yolov5的load_mosaic代码详解

这段代码主要分成两部分,第一部分是对图片的切割和拼接,第二部分是对于lable的处理def load_mosaic(self: object, index: object) -> object: # loads images in a 4-mosaic labels4, segments4 = [], [] s = self.img_size yc, xc = [int(random.uniform(-x, 2 * s + x)) for x in self.

2021-12-19 15:54:18 2266

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除