- 博客(9)
- 收藏
- 关注
原创 增大OCR模型输入尺寸,基于读光convnext微调
但是也有隐患,CNN学习的学习最后是用1维度高度映射全图,现在输出是2维度(映射是图片的上部分和下部分)求平均成1维度,这里面的会不会有信息的丢失,最后的实验结果也是很差,准确率直接崩了。最后采取的方法也很简单,其实只需要把第一层的CNN放大,后面的层简单的加载预训练权重,而第一层模型的权重该如何加载呢,以下是两种deepseek给出的,我采用了第二种。原预训练模型的输入时32,800,虽然这满足大多数场景的行文本识别,但是在遇到图片高度大于200时,图片resize 会造成是真,导致识别效果不佳的。
2025-06-19 18:15:05
408
原创 当OCR模型遭遇词汇表更新:微调维度不匹配的解决方案
在OCR模型的迭代升级过程中,当我们需要扩展识别字符集(例如新增生僻字或特殊符号)时,会遇到一个典型的技术挑战:预训练模型的分类层维度与更新后的词汇表长度不匹配。
2025-02-25 14:59:07
211
原创 文档OCR场景中,检测一个目标框包含多行文本导致ocr错误解决方案
kernel和iterations需要针对不同场景进行微调,可以引入自适应参数选择机制总的来说,re_detect是一个实用的OCR检测优化方法,能够提升OCR在文档场景中的识别精度。希望这篇文章能为从事OCR任务的工程师提供有价值的参考!如果你对re_detect方法感兴趣,欢迎交流与讨论!
2025-02-07 15:46:31
441
原创 解决 pycharm dubug 跳转到 remote source 问题
分析问题:应该是把project 文件识别成了 静态库 文件(可能是pip install -e .进行安装的第三方库)导致。edit config配置 path mapping:本地project 根目录到 服务器对应的根目录。网上有些人说用2021pycharm 版本可以解决,我嫌麻烦没有采用。参考另一种方法,修改要debug 的脚本的。
2024-01-15 17:44:07
675
2
原创 Warning: failed to read path from javaldx
UnstructuredFileLoader 去加载一个匹配到的doc格式文档(使用它的load方法)由于这个方法封装的。后面直接报 docx.opc.exceptions.PackageNotFoundError: Package not found at '/tmp/tmp598zj3f2/找到linux 用户home目录下的.config 文件夹下的libreoffice,修改这个文件夹权限就可以了。这个bug 来源于我调用langchain 里的。在修改了一大堆权限后还是没用。
2023-11-18 15:16:31
754
1
原创 pyautogui.screenshot截图转np结果全为0原因
在做csgo的自瞄脚本的时候,我用的截图办法是 pyautogui.screenshot,因为它速度比imaggrap要快太多了。但是在专成np.array时 img = pyautogui.screenshot(region=[LEFT, TOP, SCREENSHOT_W, SCREENSHOT_H]) img=np.array(img)得到的数组是全为0的,经过一系列对比发现 pyautogui.screenshot的返回值是PIL.Image类。正常来说就是通过np。array来转
2022-01-10 19:16:11
1116
原创 一张标注好的图片(有txt)分成四块加生成新的针对yolo格式的txt标注信息
平时得到的图片大多数会比较大,输入网络会造成参数过多且有时候图片冗余信息过多import torchimport osimport numpy as npimport xml.etree.ElementTree as ETimport shutilimport cv2 as cvdef GetFileList(dir, fileList): newDir = dir if os.path.isfile(dir): last=os.path.spli.
2021-12-22 14:40:57
1033
5
原创 yolov5的load_mosaic代码详解
这段代码主要分成两部分,第一部分是对图片的切割和拼接,第二部分是对于lable的处理def load_mosaic(self: object, index: object) -> object: # loads images in a 4-mosaic labels4, segments4 = [], [] s = self.img_size yc, xc = [int(random.uniform(-x, 2 * s + x)) for x in self.
2021-12-19 15:54:18
2266
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人