- 博客(175)
- 资源 (2)
- 收藏
- 关注

原创 Knowledge-QA-LLM: 基于本地知识库+LLM的开源问答系统
Knowledge-QA-LLM: 基于本地知识库+LLM的问答系统。
2023-07-29 20:27:31
2164
原创 rapidocr 2.x系列正式发布
以上仅是rapidocr官方文档中的一小部分,更多内容请移步官方文档查看。如有帮助到小伙伴,还请多多宣传。用的人多了,我这里才有动力为爱发电。
2025-04-04 08:34:34
702
原创 RapidTable release v1.0.3
库是专门用来文档类图像的表格结构还原,表格结构模型均属于序列预测方法,结合 RapidOCR,将给定图像中的表格转化对应的 HTML 格式。集成了 Unitable 项目最新表格识别算法,推理引擎为 torch,提升了 RapidTable 的上限。优化了模型下载和托管问题,模型托管在 modelscope 上。经过几日来的不懈努力,RapidTable 库终于迎来了 1.0 系列。来封装,简化参数传递,便于后续使用,更新和维护。RapidTable 的输入输出做了更新,采用。,即可自动下载对应模型。
2025-01-09 21:49:31
954
原创 Obsidian vs Typora
软件只是工具,想法才是最重要的。这一点,我想向大家推荐《打造第二大脑》这本书,里面介绍了PARA体系来有效整理自己的笔记,打造独属于自己伴随一生的大脑。
2024-11-05 21:22:36
966
1
原创 开源表格识别模型对比
wired_table_rec_v2(有线表格精度最高): 通用场景有线表格(论文,杂志,期刊, 收据,单据,账单)paddlex-SLANet-plus(综合精度最高): 文档场景表格(论文,杂志,期刊中的表格)小伙伴们可以根据自己需求尝试以上列出的表格识别模型,有啥想法可以关注RapidAI公众号,后台回复“表格”入微信群交流。
2024-10-23 08:06:23
2392
原创 如何在mkdocs-material文档主题下设置多版本文档系统?
在查找相关资料过程中,我发现没有一个较为完整清晰的文章来具体说明如何部署使用多版本文档站点的。最近得知,PaddleOCR文档站点需要支持多版本文档功能。这个需求是可以实现的,因为当时调研各个文档工具时,mkdocs-material是支持部署多版本的文档需求的。该部分分为了2个workflow,一个是日常更新main分支,自动发布到对应文档版本下;另外一个是release tag时,自动发版到对应tag的文档站点。如果release代码时,会自动根据tag名称为当前文档生成tag对应的文档站点版本。
2024-10-14 16:18:59
906
原创 Obsidian复制代码块代码正确方式
第三种方案可以正确复制代码块,推荐。从obsidian论坛中找了许久,关于这个事情,没有一个很好的解决方案。。。。。。。。
2024-10-11 17:20:16
2435
11
原创 论文笔记: 视频关键帧抽取相关工作
我们主要来看一篇2020年的综述文章Keyframe Extraction Techniques: A Review(https://elektrika.utm.my/index.php/ELEKTRIKA_Journal/article/download/221/136),该工作中系统总结了视频关键帧抽取部分的常用流程和方法。随着最近Sora文生视频的火热,视频相关的数据获得逐渐变得重要起来。这也就涉及到提取视频关键帧的问题。而有对应关键帧的视频数据集则少之又少。: 提取得到的keyframes数目。
2024-08-06 08:25:39
1796
1
原创 RapidLayout:中英文版面分析推理库
考虑到后续方便维护,将RapidLayout项目从RapidStructure中剥离出来,创建RapidLayout仓库( https://github.com/RapidAI/RapidLayout )。为了方便大家快速测试自己场景下,模型效果,我在三个平台上(HuggingFace、魔搭、百度星河社区)搭建了在线demo,大家点击文末的“阅读原文”即可体验Hugging Face在线demo。当时,之所以这么放置,有两个原因:一是偷懒了,借鉴PP-Structure项目结构了;
2024-06-20 22:19:22
814
原创 发布中文文档类资源仓库-ChineseDocumentPDF
因此,我就考虑能否收集一些在线可获取的中文文档,并对它们做标注,算是促进中文文档智能的发展吧!而当前现状是中文文档场景数据集较少,不像英文文档有arXiv网站,国内中文论文并没有一个类似arXiv的聚集地,中文论文都是散落在各个期刊自建网站上。该资源可以与360发布的版面分析模型相结合使用,具体来说,用他们的模型给新的PDF图像打标注 → 人工校验 → 再次训练模型,迭代更多数据,模型就会越来越准。通过版式分析模型,我们就可以提前知道给定文档中,哪里是表格、哪些是图表,哪些是公式,哪些是文本段落等。
2024-06-13 22:16:27
670
翻译 Github Discussions使用指南(建议收藏)
无论您是在规划功能路线图、询问有关您正在做的事情的问题,还是与构建您所使用的软件的开源社区互动,GitHub Discussions 都为所有社区(开源和私人)提供了一个连接和协作的中心空间。为对话和提问提供一个集中的社区空间(并使维护人员在处理问题和拉取请求时的生活更轻松)为新手和非代码协作者创建一个参与更大社区的地方突出项目贡献者以帮助培养下一代维护者现在就尝试在您的公共或私有资源库中启用它,或者与您有兴趣了解的任何开放源代码社区进行互动。
2024-06-06 22:44:17
1005
原创 labelImg1.8.6在python3.10下使用
Label Studio是一个可以标注多种类型的标注工具,可以标注文本、图像和语音。但是有些情况下,我只想简单标注图像使用,还是比较倾向于使用labelImg。经过测试发现,现有labelImg仓库代码已经修复了类型错误,只是没有发布到pypi包中。如果直接使用pip安装的labelImg,会报float类型错误。labelImg 1.8.6 在python 3.7.2 下使用没有问题,但是现有Anaconda不再支持python3.7环境安装。
2024-04-22 09:20:33
1283
原创 selenium 下载文件取消安全下载的方法
我要从一个网站上下载文件,谷歌浏览器总是自动阻止下载,并询问我是否保留。⚠️注意:必须设置selenium打开的浏览器哈!按照如上配置,无效,浏览器仍然有阻止行为。可是,我想要的是不要询问,默认下载即可。将自己要打开的网站地址添加到这里即可。
2024-04-18 22:12:49
1388
2
原创 开源OCR模型对比
面对这么多的模型,让我们有些不知所措。为此,最近一段时间以来,我一直想要构建这样一个基准,现在来看,已经初步具有雏形。以下结果均是基于以上 4 个库来的,其指标结果仅仅代表在指定评测集上效果,不代表在其他测试集上结果也是如此,仅供参考。以下表格中推理时间是基于 MacBook Pro M2 运行所得,不同机器会有差别,请侧重查看彼此之间的比较。目前,开源的项目中有很多 OCR 模型,但是没有一个统一的基准来衡量哪个是更好一些的。指标计算都是在相同参数下计算得来,差别仅在于模型文件不同。
2024-04-16 22:39:37
3268
1
原创 filetype: python中判断图像格式库imghdr替代库
imghdr库是python中的一个内置库,用来判断图像原本格式的。自己一直有在用,不过近来看到这个库在python 3.13中会被移除。自己感觉一直被python版本赶着走。这不找了好久,才找到一个替代库–filetype。
2024-04-02 21:47:08
789
原创 LabelConvert: 目标检测和图像分割数据集格式转换工具
LabelConvert是一个目标检测和图像分割的数据集格式转换工具,支持labelme、labelImg与YOLO、VOC和COCO 数据集格式之间的相互转换。
2024-03-30 17:20:30
715
原创 国内丐丐版overleaf--Write Papers Easy beta版来了
而国内高校毕业论文的LaTeX模板正处于野蛮生长阶段,学校认可的LaTeX毕业论文模板较少,大部分学生或者校友在自发维护。(关注本公众号,后台回复赞助,即可看到,注意添加备注。现在的终于可以平稳运行了。针对第二个痛点,结合znsoft大佬的实际需求出发,我们尝试在服务器上搭建了社区版的overleaf,znsoft大佬起名为。作为目前平台搭建和运营者,我是没有兴趣和想法去窥探他人隐私的,你可以放心使用。此刻,今年将要毕业的无数莘莘学子正在奋笔疾书写着自己的毕业论文,淹没于繁琐的论文排版格式中。
2024-03-26 20:08:06
852
原创 OCR-free相关论文梳理
Donut的结构有些像Text Spotting任务(检测和识别都在一个模型中完成),但是Donut做的要比Text Spotting任务更进一步。该工作将OCR中多个子任务都集成到了一个End-to-End的网络中,网络是基于transformer的编解码结构。这应该是第一篇将Transformer 编解码结构应用到整个OCR任务中的工作,包括文档分类、文档信息提取和文档问答三个任务。现阶段,Transformer技术的发展,让通用文档理解任务变得不再是那么遥不可及,出现了很多OCR-free的工作。
2024-03-13 08:28:31
1562
原创 无线表格识别模型LORE转换库:ConvertLOREToONNX
这次吸取教训,环境文件采用Anaconda导出的,更加详细记录当前转换环境。以下是转换仓库的README,感兴趣小伙伴可以点击文末的“阅读原文”跳转到转换仓库尝试。总有小伙伴问到阿里的无线表格识别模型是如何转换为ONNX格式的。这个说来有些惭愧,现有的ONNX模型是很久之前转换的了,转换环境已经丢失,且没有做任何笔记。今天下定决心再次尝试转换,庆幸的是转换成功了。
2024-03-10 15:08:50
596
4
原创 近年来文本检测相关工作梳理
STKM工作是直接从image representations中decoding文本信息,本篇工作则通过仔细设计的pre-training任务(image-text contrasitive learning, masked language modeling, word-in-image predictioin)中,增加文本信息和图像信息的mutual alignment和cross-modal interaction,从而进一步增强backbone的能力。因此,两阶段的OCR方案一直是优先考虑的。
2024-03-09 20:42:43
1249
原创 论文阅读:Vary-toy论文阅读笔记
如何基于Vary-tiny + pipeline产生一个更加practical vision vocabulary?如何在不损坏Qwen-1.8B模型特征前提下,利用new vision vocabulary来使Vary-toy-1.8B产生新的特征?
2024-01-24 21:46:53
1605
1
原创 论文阅读:Vary论文阅读笔记
Figure 1:主要想说明Vary在产生vocabulary时,采用两阶段策略:在第一阶段,通过自回归方法,先产生一个新的vocabulary,在第二阶段,将新的vocabulary与原始的融合,作为一个新的vocabulary。该部分主要聚焦于fine-grained perception,例如文档智能和图表理解,说是为了弥补CLIP的不足,因此这部分网络输入都是图像,没有文本输入的分支。因此,就以旷视出的这篇工作Vary作为切入点,借此来学习LLM在文档智能领域的相关工作。
2024-01-18 22:12:34
1834
1
原创 解决! LaTeX Error: File ‘xxxx.sty‘ not found.问题
命令安装,二是手动搜索对应包,放到对应LaTeX安装目录下。在本地编译tex文件时,总会遇到。一般解决方案有两种:一是直接通过。经过网上查找得知,可以通过安装。和其对应的包名不对应,直接用。安装,会存在找不到的情况。这里存在一个问题:缺少的。从以上错误来看,缺少。
2024-01-12 15:36:00
14589
1
原创 论文阅读:TinyGPT-V 论文阅读及源码梳理对应
QFormer来自论文BCLI2工作中,用来弥补Frozen Image encoder和Frozen LLM之间的gap。将prompt除Image部分其他部分依次转为向量。再将两者mix,得到最终向量。基于Bert作为初始化的。
2024-01-11 21:52:22
1559
3
原创 TableStructureRec: 表格结构识别推理库来了
目前 PaddleOCR 中表格识别暂未整理到这个仓库中,后续会整理进来。欢迎持续关注。
2023-11-23 22:38:09
1767
原创 Python环境下LaTeX数学公式转图像方案调研与探讨
目前,公开的公式识别数据集,已经有很多了,包括一些公式识别的比赛以及开源项目中都有涉及,我这里就不在一一列举了,大家可自行寻找。
2023-10-28 22:02:20
1132
原创 rapidocr_paddle[gpu]:GPU端推理库来了
系列包是基于PaddlePaddle框架作为推理引擎的,支持CPU和GPU上推理。值得说明的是,这个包和PaddleOCR相比,代码基本都是一样的,只不过这个库将里面核心推理代码抽了出来,更加精简而已。推荐GPU上用这个,CPU端还是以和为主。毕竟PaddlePaddle的CPU端还是比较重的。封装这个包的原因是为了弥补GPU端推理的空缺。因为面对成千上万的图像需要提取文字时,CPU端上推理速度还是较慢,不能满足需求。
2023-10-22 22:49:20
2524
原创 Table Recognition Metric: 表格识别算法评测工具包及相关评测基准数据集
Table Recognition Metric: 表格识别算法评测工具包及相关评测基准数据集
2023-07-13 22:11:55
803
1
原创 [RapidVideOCR周边] RapidVideOCR高级教程(有python基础的小伙伴)
安装使用VideoSubFinder软件。安装rapid_videocr。
2023-07-06 08:44:20
475
.obsidian.zip
2024-11-05
多角度人物跟踪matlab源码
2017-09-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人