自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

YoGuohcx的博客

原创增大OCR模型输入尺寸，基于读光convnext微调

但是也有隐患，CNN学习的学习最后是用1维度高度映射全图，现在输出是2维度（映射是图片的上部分和下部分）求平均成1维度，这里面的会不会有信息的丢失，最后的实验结果也是很差，准确率直接崩了。最后采取的方法也很简单，其实只需要把第一层的CNN放大，后面的层简单的加载预训练权重，而第一层模型的权重该如何加载呢，以下是两种deepseek给出的，我采用了第二种。原预训练模型的输入时32，800，虽然这满足大多数场景的行文本识别，但是在遇到图片高度大于200时，图片resize 会造成是真，导致识别效果不佳的。

2025-06-19 18:15:05 408

原创图像处理基础：格式转换、比较与保存的实用指南

在计算机视觉和图像处理中，正确理解颜色空间、数组比较和文件保存是开发者的基本功。

2025-03-13 13:51:00 305

原创当OCR模型遭遇词汇表更新：微调维度不匹配的解决方案

在OCR模型的迭代升级过程中，当我们需要扩展识别字符集（例如新增生僻字或特殊符号）时，会遇到一个典型的技术挑战：预训练模型的分类层维度与更新后的词汇表长度不匹配。

2025-02-25 14:59:07 211

原创文档OCR场景中，检测一个目标框包含多行文本导致ocr错误解决方案

kernel和iterations需要针对不同场景进行微调，可以引入自适应参数选择机制总的来说，re_detect是一个实用的OCR检测优化方法，能够提升OCR在文档场景中的识别精度。希望这篇文章能为从事OCR任务的工程师提供有价值的参考！如果你对re_detect方法感兴趣，欢迎交流与讨论！

2025-02-07 15:46:31 441

原创解决 pycharm dubug 跳转到 remote source 问题

分析问题：应该是把project 文件识别成了静态库文件（可能是pip install -e .进行安装的第三方库）导致。edit config配置 path mapping：本地project 根目录到服务器对应的根目录。网上有些人说用2021pycharm 版本可以解决，我嫌麻烦没有采用。参考另一种方法，修改要debug 的脚本的。

2024-01-15 17:44:07 675 2

原创 Warning: failed to read path from javaldx

UnstructuredFileLoader 去加载一个匹配到的doc格式文档（使用它的load方法）由于这个方法封装的。后面直接报 docx.opc.exceptions.PackageNotFoundError: Package not found at '/tmp/tmp598zj3f2/找到linux 用户home目录下的.config 文件夹下的libreoffice，修改这个文件夹权限就可以了。这个bug 来源于我调用langchain 里的。在修改了一大堆权限后还是没用。

2023-11-18 15:16:31 754 1

原创 pyautogui.screenshot截图转np结果全为0原因

在做csgo的自瞄脚本的时候，我用的截图办法是 pyautogui.screenshot，因为它速度比imaggrap要快太多了。但是在专成np.array时 img = pyautogui.screenshot(region=[LEFT, TOP, SCREENSHOT_W, SCREENSHOT_H]) img=np.array(img)得到的数组是全为0的，经过一系列对比发现 pyautogui.screenshot的返回值是PIL.Image类。正常来说就是通过np。array来转

2022-01-10 19:16:11 1116

原创一张标注好的图片（有txt）分成四块加生成新的针对yolo格式的txt标注信息

平时得到的图片大多数会比较大，输入网络会造成参数过多且有时候图片冗余信息过多import torchimport osimport numpy as npimport xml.etree.ElementTree as ETimport shutilimport cv2 as cvdef GetFileList(dir, fileList): newDir = dir if os.path.isfile(dir): last=os.path.spli.

2021-12-22 14:40:57 1033 5

原创 yolov5的load_mosaic代码详解

这段代码主要分成两部分，第一部分是对图片的切割和拼接，第二部分是对于lable的处理def load_mosaic(self: object, index: object) -> object: # loads images in a 4-mosaic labels4, segments4 = [], [] s = self.img_size yc, xc = [int(random.uniform(-x, 2 * s + x)) for x in self.

2021-12-19 15:54:18 2266

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

博客等级

码龄6年

9
原创

44
点赞

52
收藏

15
粉丝

关注

私信

热门文章

最新评论

解决 pycharm dubug 跳转到 remote source 问题
walton934: 牛皮，修改path mapping 真管用
解决 pycharm dubug 跳转到 remote source 问题
优快云-Ada助手: 恭喜你写了这篇关于解决pycharm dubug跳转到remote source问题的博客！阅读了你的文章后，我对这个问题有了更清晰的理解。不过，我想提一个建议，希望你在下一篇文章中能够更深入地探讨一下pycharm debug的其他常见问题，并分享你的解决方法。期待你的下一篇作品！
Warning: failed to read path from javaldx
优快云-Ada助手: 恭喜你持续创作并分享了这篇博客！关于“Warning: failed to read path from javaldx”，我觉得你可以在下一篇博客中尝试分享一些解决这个问题的方法或者你自己的经验教训，这样能够帮助更多的读者。希望你能继续保持创作的热情，期待你更多的精彩内容！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.youkuaiyun.com/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
一张标注好的图片（有txt）分成四块加生成新的针对yolo格式的txt标注信息
这糖有点苦: 为什么我在切完图像之后，再做图像扩增，这个时候会出现负的坐标呢，这个博主知道是为什么吗
一张标注好的图片（有txt）分成四块加生成新的针对yolo格式的txt标注信息
qq_41536364: 老哥！！加个好友行不行

提示

确定要删除当前文章？

取消删除