Liekkas Kono-优快云博客

原创 vscode末尾自动添加新行

最近发现有些代码需要自动添加新行。这种功能我认为仅适用于code文件，像html，python和javascript等等。如果打开某些txt文件，这样岂不是就会在不知情情况下添加了一行？于是，我又调研了一圈，在stackoverflow的评论区发现了蛛丝马迹：（

2025-09-25 09:29:45 430

原创 rapidocr v3.4.0发布了

RapidOCR v3.4.0更新摘要：新增支持PP-OCRv5英文/泰文/希腊文识别模型；添加日志打印开关参数；修复中文路径乱码、PyTorch≥2.6的权重加载问题；统一各阶段运行时间统计范围；重构单元测试结构。包含多项功能增强和错误修复，改进了文档和测试代码。本次更新主要贡献者为@SWHL。

2025-09-06 20:19:16 564

原创 rapid_table v3.0.0发布了

RapidTable v3.0.0 发布，主要支持批量推理功能，并对接口返回值进行了重大调整（从单张图片处理改为批量处理）。此次版本升级包含代码重构、批量处理优化、bug修复和文档更新等工作。开发者表示虽然代码还未达到理想状态，但会持续改进。感谢贡献者们的努力，完整更新内容可查看项目变更日志。

2025-08-29 22:40:15 548

PHOCR 是一个高性能的开源光学字符识别（OCR）工具包，专为多语种文本识别任务设计，支持包括中文、日文、韩文、俄文、越南文和泰文在内的多种语言。PHOCR 搭载了我们完全自研的识别模型 PH-OCRv1，在准确率上显著优于现有解决方案。上面结果和PP-OCRv5比较来看，差距还是不小的。可能是测试集的不同，导致指标差距明显。但是速度的确快一些。⚠️注意：仅供参考哈。由于评测数据集的限制，以下评测结果不完全代表模型能力，支持给出一个基本参考。小伙伴们还需要在自己场景下真实评测来看哈。还需要自己来看一下。

2025-08-03 11:25:40 395

原创 rapidocr_web v1.0.0发布了

下载地址（需科学上网）：https://github.com/RapidAI/RapidOCRWeb/releases/download/v1.0.0/RapidOCRWeb-3.1.1-windows-2022-X64-no-installer.zip。有自己打包需求的小伙伴，可以参考 https://github.com/RapidAI/RapidOCRWeb/blob/main/.github/workflows/package_ocrweb.yml 中代码来打包自己的exe可执行程序。

2025-07-31 22:36:53 565

原创 rapidocr v3.3.0发布了

【代码】rapidocr v3.3.0发布了。

2025-07-27 20:54:09 219

原创在pypi中，yank某个包是什么意思

在PyPI（Python Package Index）里，“yank”一个包指的是将特定版本的包标记为不再推荐使用。不过，该版本依旧会保留在PyPI上，只是用户无法再通过命令默认安装被yanked的版本。

2025-06-25 20:16:02 743

原创 rapid_table v2.0.0发布

Full Changelog: https://github.com/RapidAI/RapidTable/compare/v1.0.5…v2.0.0

2025-06-22 15:48:24 376

原创 rapidocr v3.2.0发布

详细更新日志：https://github.com/RapidAI/RapidOCR/releases/tag/v3.2.0。v3.2.0 发布了。令我感到很开心的是：有 3 个小伙伴提了 PR，他们积极参与了进来。

2025-06-18 22:00:30 322

原创 rapidocr v3.1.0发布

v3.1.0 版本，主要解决了之前积压的一些问题。

2025-06-10 23:00:58 350

原创 rapidocr 3.0 在线demo来了

于是，在v3.0.0版本中做了重构，调整了参数，使其整个框架更加灵活。主要体现在文本检测模块、文本行方向分类模块和文本识别三个模块可以灵活选择不同推理引擎、不同OCR版本和不同量级的模型。v3.0.0版本，主要集成了PP-OCRv5系列模型。在集成过程中也暴漏一些设计问题，导致后续难以维护。值得注意的是，后续每个大版本的在线demo都会保留，以便于小伙伴们快速试验不同版本下识别效果。因此，先前的在线demo也就变得不太实用了。这几天做了新的改版，添加新增参数的调节。

2025-06-05 22:41:32 596

原创 rapidocr v3.0.0发布(集成PP-OCRv5)

RapidOCR v3.0.0已发布，主要更新包括集成PP-OCRv5系列模型和调整参数设计。与v2.0版本不兼容，建议谨慎升级。安装后可通过rapidocr check验证。新版支持灵活组合不同推理引擎和OCR模型，默认配置仍为PP-OCRv4。用户可通过详细文档和在线demo选择合适模型。相关集成记录已在公众号发布，更多使用说明请参考官方文档站点。

2025-06-03 09:39:34 857

原创 RapidOCR集成PP-OCRv5_rec模型(mobile/server)记录

该文章主要记录RapidOCR集成PP-OCRv5_mobile_rec和PP-OCRv5_server_rec模型记录的，涉及模型转换，模型精度测试等步骤。

2025-05-31 14:27:59 2305 3

原创 RapidOCR集成PP-OCRv5_det mobile模型记录

至此，该部分集成工作就基本完成了。这部分代码会集成到中。版本号之所以从v2.1.0到v3.0.0，原因是：语义化版本号。我在集成过程中，发现v2.1.0中字段不太合理，做了一些改进，动了外部API，因此只能升大版本号。请大家在使用过程中，注意查看最新文档→docs。

2025-05-29 22:48:05 2740

原创 MacBook M2芯片 Sequoia15.4.1 安装免费版VMware Fusion 13.6.3版本

本文提供了VMware Fusion 13.6.3版本的下载链接，用户需注册博通账号以获取文件。同时，附有相关教程链接，帮助用户更好地安装和使用该软件。此外，还提供了镜像下载链接，需注册账号后访问。这些资源旨在为用户提供便捷的下载和安装指南，确保顺利使用VMware Fusion。

2025-05-08 21:54:36 405

原创 rapidocr 2.0 在线demo来了

2.0支持4个推理引擎（ONNRuntime、OpenVino、PaddlePaddle和PyTorch），且整理了文本检测和文本识别模型，使得当前版本可以通过参数快速指定不同模型，自动下载使用。在线demo的意义在于，我们可以快速通过它来看到某个需求下对应图像的识别效果，从而来帮助我们快速决定是否使用RapidOCR；值得注意的是，在线demo下的识别速度仅供参考。2.0采用的是Gradio 5系列，借鉴了其他项目的一些CSS，让整个页面好看也实用一些，希望小伙伴喜欢。

2025-04-12 21:32:00 699

原创 rapidocr 2.x系列正式发布

以上仅是rapidocr官方文档中的一小部分，更多内容请移步官方文档查看。如有帮助到小伙伴，还请多多宣传。用的人多了，我这里才有动力为爱发电。

2025-04-04 08:34:34 1449

原创 python logging日志重复打印问题解决方案

【代码】python logging日志重复打印问题解决方案。

2025-02-13 08:24:32 483 1

原创 omegaconf库使用实践

最近在重构RapidOCR仓库代码，使其更加优雅的同时，具有扩展性。无意从他人源码中发现库。

2025-02-08 15:03:39 416

原创 RapidTable release v1.0.3

库是专门用来文档类图像的表格结构还原，表格结构模型均属于序列预测方法，结合 RapidOCR，将给定图像中的表格转化对应的 HTML 格式。集成了 Unitable 项目最新表格识别算法，推理引擎为 torch，提升了 RapidTable 的上限。优化了模型下载和托管问题，模型托管在 modelscope 上。经过几日来的不懈努力，RapidTable 库终于迎来了 1.0 系列。来封装，简化参数传递，便于后续使用，更新和维护。RapidTable 的输入输出做了更新，采用。，即可自动下载对应模型。

2025-01-09 21:49:31 1372

原创 Obsidian vs Typora

软件只是工具，想法才是最重要的。这一点，我想向大家推荐《打造第二大脑》这本书，里面介绍了PARA体系来有效整理自己的笔记，打造独属于自己伴随一生的大脑。

2024-11-05 21:22:36 1997 1

原创开源表格识别模型对比

wired_table_rec_v2(有线表格精度最高): 通用场景有线表格(论文，杂志，期刊, 收据，单据，账单)paddlex-SLANet-plus(综合精度最高): 文档场景表格(论文，杂志，期刊中的表格)小伙伴们可以根据自己需求尝试以上列出的表格识别模型，有啥想法可以关注RapidAI公众号，后台回复“表格”入微信群交流。

2024-10-23 08:06:23 4373

原创如何在mkdocs-material文档主题下设置多版本文档系统？

在查找相关资料过程中，我发现没有一个较为完整清晰的文章来具体说明如何部署使用多版本文档站点的。最近得知，PaddleOCR文档站点需要支持多版本文档功能。这个需求是可以实现的，因为当时调研各个文档工具时，mkdocs-material是支持部署多版本的文档需求的。该部分分为了2个workflow，一个是日常更新main分支，自动发布到对应文档版本下；另外一个是release tag时，自动发版到对应tag的文档站点。如果release代码时，会自动根据tag名称为当前文档生成tag对应的文档站点版本。

2024-10-14 16:18:59 1136

原创 Obsidian复制代码块代码正确方式

第三种方案可以正确复制代码块，推荐。从obsidian论坛中找了许久，关于这个事情，没有一个很好的解决方案。。。。。。。。

2024-10-11 17:20:16 4346 11

原创提取文档内容项目汇总

magic-doc

2024-08-21 10:00:56 299

原创论文笔记: 视频关键帧抽取相关工作

我们主要来看一篇2020年的综述文章Keyframe Extraction Techniques: A Review（https://elektrika.utm.my/index.php/ELEKTRIKA_Journal/article/download/221/136），该工作中系统总结了视频关键帧抽取部分的常用流程和方法。随着最近Sora文生视频的火热，视频相关的数据获得逐渐变得重要起来。这也就涉及到提取视频关键帧的问题。而有对应关键帧的视频数据集则少之又少。: 提取得到的keyframes数目。

2024-08-06 08:25:39 2736 1

原创 RapidLayout:中英文版面分析推理库

考虑到后续方便维护，将RapidLayout项目从RapidStructure中剥离出来，创建RapidLayout仓库( https://github.com/RapidAI/RapidLayout )。为了方便大家快速测试自己场景下，模型效果，我在三个平台上（HuggingFace、魔搭、百度星河社区）搭建了在线demo，大家点击文末的“阅读原文”即可体验Hugging Face在线demo。当时，之所以这么放置，有两个原因：一是偷懒了，借鉴PP-Structure项目结构了；

2024-06-20 22:19:22 1191

原创发布中文文档类资源仓库-ChineseDocumentPDF

因此，我就考虑能否收集一些在线可获取的中文文档，并对它们做标注，算是促进中文文档智能的发展吧！而当前现状是中文文档场景数据集较少，不像英文文档有arXiv网站，国内中文论文并没有一个类似arXiv的聚集地，中文论文都是散落在各个期刊自建网站上。该资源可以与360发布的版面分析模型相结合使用，具体来说，用他们的模型给新的PDF图像打标注 → 人工校验 → 再次训练模型，迭代更多数据，模型就会越来越准。通过版式分析模型，我们就可以提前知道给定文档中，哪里是表格、哪些是图表，哪些是公式，哪些是文本段落等。

2024-06-13 22:16:27 1260

翻译 Github Discussions使用指南（建议收藏）

无论您是在规划功能路线图、询问有关您正在做的事情的问题，还是与构建您所使用的软件的开源社区互动，GitHub Discussions 都为所有社区（开源和私人）提供了一个连接和协作的中心空间。为对话和提问提供一个集中的社区空间（并使维护人员在处理问题和拉取请求时的生活更轻松）为新手和非代码协作者创建一个参与更大社区的地方突出项目贡献者以帮助培养下一代维护者现在就尝试在您的公共或私有资源库中启用它，或者与您有兴趣了解的任何开放源代码社区进行互动。

2024-06-06 22:44:17 2206

原创 Github RAG项目汇总

持续更新。

2024-05-14 16:49:15 776

原创轻量Backbone论文汇总

Rewrite the StarsPDF | Code

2024-05-14 16:26:40 580

原创 labelImg1.8.6在python3.10下使用

Label Studio是一个可以标注多种类型的标注工具，可以标注文本、图像和语音。但是有些情况下，我只想简单标注图像使用，还是比较倾向于使用labelImg。经过测试发现，现有labelImg仓库代码已经修复了类型错误，只是没有发布到pypi包中。如果直接使用pip安装的labelImg，会报float类型错误。labelImg 1.8.6 在python 3.7.2 下使用没有问题，但是现有Anaconda不再支持python3.7环境安装。

2024-04-22 09:20:33 1981

原创 selenium 下载文件取消安全下载的方法

我要从一个网站上下载文件，谷歌浏览器总是自动阻止下载，并询问我是否保留。⚠️注意：必须设置selenium打开的浏览器哈！按照如上配置，无效，浏览器仍然有阻止行为。可是，我想要的是不要询问，默认下载即可。将自己要打开的网站地址添加到这里即可。

2024-04-18 22:12:49 1822 2

原创开源OCR模型对比

面对这么多的模型，让我们有些不知所措。为此，最近一段时间以来，我一直想要构建这样一个基准，现在来看，已经初步具有雏形。以下结果均是基于以上 4 个库来的，其指标结果仅仅代表在指定评测集上效果，不代表在其他测试集上结果也是如此，仅供参考。以下表格中推理时间是基于 MacBook Pro M2 运行所得，不同机器会有差别，请侧重查看彼此之间的比较。目前，开源的项目中有很多 OCR 模型，但是没有一个统一的基准来衡量哪个是更好一些的。指标计算都是在相同参数下计算得来，差别仅在于模型文件不同。

2024-04-16 22:39:37 5857 1

原创 filetype: python中判断图像格式库imghdr替代库

imghdr库是python中的一个内置库，用来判断图像原本格式的。自己一直有在用，不过近来看到这个库在python 3.13中会被移除。自己感觉一直被python版本赶着走。这不找了好久，才找到一个替代库–filetype。

2024-04-02 21:47:08 1098

原创 LabelConvert: 目标检测和图像分割数据集格式转换工具

LabelConvert是一个目标检测和图像分割的数据集格式转换工具，支持labelme、labelImg与YOLO、VOC和COCO 数据集格式之间的相互转换。

2024-03-30 17:20:30 923

原创国内丐丐版overleaf--Write Papers Easy beta版来了

而国内高校毕业论文的LaTeX模板正处于野蛮生长阶段，学校认可的LaTeX毕业论文模板较少，大部分学生或者校友在自发维护。（关注本公众号，后台回复赞助，即可看到，注意添加备注。现在的终于可以平稳运行了。针对第二个痛点，结合znsoft大佬的实际需求出发，我们尝试在服务器上搭建了社区版的overleaf，znsoft大佬起名为。作为目前平台搭建和运营者，我是没有兴趣和想法去窥探他人隐私的，你可以放心使用。此刻，今年将要毕业的无数莘莘学子正在奋笔疾书写着自己的毕业论文，淹没于繁琐的论文排版格式中。

2024-03-26 20:08:06 1162

原创 OCR-free相关论文梳理

Donut的结构有些像Text Spotting任务（检测和识别都在一个模型中完成），但是Donut做的要比Text Spotting任务更进一步。该工作将OCR中多个子任务都集成到了一个End-to-End的网络中，网络是基于transformer的编解码结构。这应该是第一篇将Transformer 编解码结构应用到整个OCR任务中的工作，包括文档分类、文档信息提取和文档问答三个任务。现阶段，Transformer技术的发展，让通用文档理解任务变得不再是那么遥不可及，出现了很多OCR-free的工作。

2024-03-13 08:28:31 1978

原创无线表格识别模型LORE转换库：ConvertLOREToONNX

这次吸取教训，环境文件采用Anaconda导出的，更加详细记录当前转换环境。以下是转换仓库的README，感兴趣小伙伴可以点击文末的“阅读原文”跳转到转换仓库尝试。总有小伙伴问到阿里的无线表格识别模型是如何转换为ONNX格式的。这个说来有些惭愧，现有的ONNX模型是很久之前转换的了，转换环境已经丢失，且没有做任何笔记。今天下定决心再次尝试转换，庆幸的是转换成功了。

2024-03-10 15:08:50 761 4

原创近年来文本检测相关工作梳理

STKM工作是直接从image representations中decoding文本信息，本篇工作则通过仔细设计的pre-training任务（image-text contrasitive learning, masked language modeling, word-in-image predictioin）中，增加文本信息和图像信息的mutual alignment和cross-modal interaction，从而进一步增强backbone的能力。因此，两阶段的OCR方案一直是优先考虑的。

2024-03-09 20:42:43 1338

.obsidian.zip

test docker compose的最小demo

cudnn-7.5-linux-x64-v6.0

多角度人物跟踪matlab源码

空空如也