- 博客(131)
- 收藏
- 关注
原创 使用 Docker 一键部署 PaddleOCR-VL: 新手保姆级教程
PaddleOCR-VL 是基于轻量级视觉语言模型(VLM)的文档解析解决方案,核心模型为 PaddleOCR-VL-0.9B,支持多语言文本、表格、公式、图表等元素级识别,并能以较低资源消耗达到 行业SOTA水平。本文推荐读者使用 Docker / Docker Compose 来部署PaddleOCR-VL——好处是依赖打包好、命令少、复现稳定,并且便于生产化扩展(端口、GPU 绑定、挂载配置等)。理解 PaddleOCR-VL 的定位与优势,以及为什么 Docker 是最省心、最稳定的部署方式。
2025-12-18 17:07:49
708
原创 再也不靠人肉找合同“坑“:我的智能合同风险审查全流程落地实录
实现主流程 run() 及 _parse_document()、_analyze_risks()、_generate_suggestions()、_integrate_results() 等内部步骤;如果每次都从头走 OCR + LLM,不仅浪费算力,用户体验也会很差。调用 ui_workflow_processor.py 中的 process_contract_workflow();提供 find_text_positions_in_json() 等工具函数,为后续风险高亮提供坐标数据。
2025-12-18 17:02:59
911
原创 破解“竖排文本”魔咒:在 RTX 3060 上微调 PaddleOCR-VL 以识别日本漫画
如果你曾尝试使用传统的 OCR 工具直接翻译一本未汉化的日本漫画(Manga),你可能会遇到令人抓狂的体验:文字识别乱码、气泡顺序错乱,尤其是那些 竖排(Vertical) 且字体夸张的拟声词,AI 往往视而不见。2,惊人的效果提升:根据我们的实测,在 RTX 3060 上微调后,精确匹配率 (Exact Match) 从基础模型的 9.0% 飙升至 64.4%,字符错误率 (CER) 降低了 80%。3,运行数据处理脚本: 该脚本会自动解析 XML 标注,裁剪出文本区域,生成适合 VL 模型训练的格式。
2025-12-11 17:49:45
611
原创 如何用OpenVINO™部署PP-StructureV3到Intel GPU上
RapidDoc是一个轻量级、专注于文档解析的开源框架,支持OCR、版面分析、公式识别、表格识别和阅读顺序恢复等多种功能。框架基于 Mineru 二次开发,移除 VLM,专注于 Pipeline 产线下的高效文档解析,在 CPU 上也能保持不错的解析速度。本文章所使用的核心模型主要来源于 PaddleOCR 的 PP-StructureV3 系列(OCR、版面分析、公式识别、阅读顺序恢复,以及部分表格识别模型),并已全部转换为 ONNX 格式,支持在 CPU/GPU 上高效推理。
2025-12-02 18:09:09
411
原创 用ROCm部署PP-StructureV3到AMD GPU上
RapidDoc 是一个专精于文档智能解析的轻量级开源框架,集成了以下核心功能模块:光学字符识别(OCR)文档版面分析数学公式识别表格结构还原阅读顺序恢复该系统基于 MinerU 架构进行二次开发,在保持高精度解析能力的同时,移除了视觉语言模型(VLM)模块,专注于构建高效稳定的端到端文档解析流水线。即使在纯 CPU 环境中,系统仍能保持流畅的推理性能。本项目采用的核心模型均来自 PaddleOCR 的 PP-StructureV3 模型系列,包括:OCR 识别模块版面分析模块。
2025-11-13 16:40:07
852
原创 三步将AI模型转换为 DeepX 格式并完成精度评估
本项目采用了一种通用、与框架无关的方法的范例:通过比较两种模型输出的一致性,来判断一次模型转换是否成功。我们提供了一个端到端示例,演示如何将 YOLOv5su 模型从 PyTorch (.pt) 转换为 ONNX (.onnx),再编译为 DeepX 专用的 .dxnn 格式。最后 采用 模型输出结果分析脚本,通过对标准测试图片 (test.jpg) 进行推理,分析 .dxnn 模型与原始 .pt 模型输出的结果是否一致,体现模型在转换过程中是否成功。
2025-10-24 14:23:13
809
原创 PaddleOCR-VL:紧凑型0.9B参数模型在多语言文档解析领域表现卓越
PaddleOCR-VL作为专为文档解析优化的0.9B参数视觉语言模型,通过动态视觉编码器与轻量语言模型的创新结合,在有限硬件资源下实现了业界领先的解析精度。它的突出之处在于:🌍 涵盖109种语言支持📊 全面覆盖表格、图表、公式等复杂元素🧠 全面覆盖表格、图表、公式等复杂元素⚡ 以更低的计算成本超越更大的模型✅ 输出结构化的 JSON 和 Markdown简而言之:PaddleOCR-VL 将前沿文档智能技术封装为紧凑、高效、多语言且可直接部署的解决方案。
2025-10-24 14:20:39
904
原创 PP-OCRv5 MCP服务器在海光主板的部署与实战
借助Cherry Studio 与大模型及 PaddleOCR MCP 的深度融合,用户不仅能高效精准地从各类图像中提取文本内容,还可进一步完成结构化数据提取等复杂任务。结合 Cherry Studio 灵活的配置能力,用户可量身定制专属 AI 助手,显著提升工作效率与生活便捷性。最后,点击“确定”按钮,完成在Cherry Studio中,配置PaddleOCR MCP。首先,打开Cherry Studio在软件的“MCP服务器”管理页面,安装好UV和Bun。若需验证MCP服务器安装是否成功,可输入命令。
2025-10-15 17:06:04
517
原创 Spec-Kit+Copilot打造AI规格驱动开发
在传统的软件开发中,通常先有需求→ 写规格 → 再写代码;规格多数是“指导性文档”,而真正的业务逻辑和边界由程序员“翻译”出来。Spec-Driven Development(规格驱动开发)的理念是,将规格(spec)从“仅供参考”提升为可执行、可驱动的核心工件,直接引导后续设计、计划、任务拆解、实现等流程。spec-kit 是 GitHub 提供的一个工具集 / CLI / 模板库,用来在项目中落地这种流程!
2025-10-15 15:21:59
2147
1
原创 3种超火电影级PPT开场,跟着学,5分钟搞定高级感!
别再费劲琢磨PPT开场了!收下这3份“保姆级”配方,你只需要复制步骤,就能做出让同事眼前一亮的高级感开场。
2025-10-15 15:20:28
883
原创 使用ROCm™优化并部署YOLOv8模型
YOLOv8 由 Ultralytics 于 2023 年 1 月 10 日发布,在准确性和速度方面提供了前沿的性能。YOLOv8 在之前 YOLO 版本的基础上进行了改进,引入了新的特性和优化,使其成为各种应用中各种目标检测任务的理想选择。YOLOv8模型的卓越性能使其在多个领域具有广泛的应用前景,如自动驾驶与智能交通、工业制造与质量检测、安全监控与公共安全等。本文将介绍使用ROCm™在AMD® CPU、独立显卡、集成显卡上优化并部署YOLOv8模型。
2025-09-24 16:40:15
834
原创 你可能见过一打十的叶师傅,但不一定见过支持10个屏的迷你主机!
PZ21_6mDP迷你主机作为算力魔方Z系列的一款典型机型,机身小巧,可隐藏在显示器支架后方或机柜中,把复杂场景中的“多信息、多任务”拆解为独立画面,减少“切换成本”,对追求“高效协作、空间友好”的用户而言,这款迷你主机既是多屏场景的 “入门解决方案”,也是可长期升级的“核心设备”,真正实现了“小机身,大视野”。如果你有更好的文章,欢迎投稿!更多精彩内容请关注“算力魔方®。
2025-09-19 21:57:43
297
原创 使用OpenVINO将PP-OCRv5模型部署在Intel显卡上
OpenVINO™工具套件是一个用于优化和部署人工智能(AI)模型,提升AI推理性能的开源工具集合,不仅支持以卷积神经网络(CNN)为核心组件的预测式AI模型(Predictive AI),还支持以Transformer为核心组件的生成式AI模型(Generative AI)。OpenVINO™工具套件支持直接读取并优化PaddlePaddle训练好的模型(*.pdmodel)或者ONNX格式模型(*.onnx),提升其在英特尔® CPU、独立显卡、集成显卡、NPU等硬件上的AI推理计算性能。
2025-09-19 21:56:26
509
原创 解析4口POE工控机的场景价值与核心优势
PT21Pro_4POE工控机,机壳使用铝合金材质,提供2路 HDMI显示,4个USB3.0接口,8个USB2.0接口,6个千兆网络(其中4个支持POE),2路 RS232/422/485串口。在多设备需供电+ 联网的场景中,这款工控机以一体化、高集成、易运维为核心优势,实现了1台设备替代多台传统设备的效果。在未来,随着POE技术升级,这类POE工控机还将适配更多高功率设备,进一步拓展其他应用,成为工业与商用场景中供电 + 网络一体化的核心设备。如果你有更好的文章,欢迎投稿!更多精彩内容请关注“
2025-09-12 19:05:17
813
原创 PaddleOCR MCP Server 实战:3步将OCR和文档解析轻松集成到 AI智能体
PaddleOCR MCP Server 是一个轻量级 Model Context Protocol (MCP) 服务,专为将 PaddleOCR 的文档理解能力无缝集成到文档AI智能体而设计,让AI智能体能够按需调用文字识别或文档解析工具,如下图所示,实现从图像/PDF中提取结构化信息:OCR:文字识别工具,从图像/PDF 提取高质量文本。PP-StructureV3:文档解析工具,从图像/PDF中提取表格、标题、段落和公式等文档元素,并以Markdown/JSON格式输出。
2025-09-12 19:04:10
1452
原创 使用ROCm将PP-OCRv5模型部署在AMD显卡上
ROCm™(Radeon Open Compute)是 AMD 推出的开源软件栈,旨在为 GPU 加速计算提供全面支持。它包含驱动程序、编译器、开发工具、库函数和 API,覆盖从底层内核开发到上层应用部署的完整开发流程,广泛适用于高性能计算(HPC)、人工智能(AI)和机器学习等领域。ROCm™ 特别针对生成式 AI 和 HPC 工作负载进行了深度优化,具备良好的生态系统兼容性和代码可移植性,能够帮助开发者快速将基于 CUDA 等平台的现有项目迁移至 AMD 平台。
2025-09-12 19:00:53
827
原创 一键搞定!PP-OCRv5模型转ONNX格式全攻略,解锁多平台无缝部署
通过以上五个步骤,我们成功地将PP-OCRv5模型转换为了ONNX格式,为其在广阔硬件平台上的部署打开了大门。无论是云端服务器还是边缘设备,ONNX都能提供强大的跨平台能力。🎯 接下来你可以尝试:🔧 利用ONNX Runtime、TensorRT等工具对模型进行进一步量化加速。⚡ 探索在OpenVINO、ROCm等框架上的极致推理性能。📲 最终将模型部署到你的目标设备(如手机、嵌入式开发板等)上,打造真正实用的应用。💬 互动时间:你在哪类设备上部署过OCR模型?过程中遇到了哪些有趣或棘手的问题。
2025-09-05 15:49:36
1768
原创 精准定位性能瓶颈:深入解析 PaddleOCR v3.2 全新 Benchmark 功能
为了解决这一痛点,我们在 PaddleOCR v3.2 中正式推出了全新的细粒度性能 Benchmark 功能,赋予开发者前所未有的性能洞察力。全新的 Benchmark 功能不仅支持对整个产线的端到端推理速度进行测量,其真正的强大之处在于,它能提供逐层级、逐模块的详细性能数据。这意味着您可以深入到产线内部,清晰地看到每一环节、每一个关键方法的具体耗时情况。从上图可以看出,产线中每个单功能模块,以及模块与产线中的关键方法执行时间均被详细记录。
2025-09-05 15:46:15
1115
原创 坦克系列基础款工控机介绍
作者:算力魔方创始人/英特尔创新大使刘力坦克系列分为和两款,多种算力可选择,适应多种性能需求。工控机作为自动化系统的核心设备,其散热设计与接口配置直接影响着工业场景的适配性。
2025-08-29 12:02:19
336
原创 ProxmoxVE9.0部署与配置指南
算力魔方®是一款可以DIY的迷你主机,采用了抽屉式设计,后续组装、升级、维护只需要拔插模块。通过选择不同算力的计算模块,再搭配不同的 IO 模块可以组成丰富的配置,适应不同场景。性能不够时,可以升级计算模块提升算力;IO 接口不匹配时,可以更换 IO 模块调整功能,而无需重构整个系统。本文以下所有步骤将在带有英特尔i7-1165G7处理器英伟达4060独立显卡算力魔方®上完成验证。到此为止,你已经成功部署并初步配置了ProxmoxVE9.0。ProxmoxVE的功能非常强大,远不止于此。
2025-08-29 11:49:43
4603
原创 小语种OCR标注效率提升10+倍:PaddleOCR+ERNIE 4.5自动标注实战解析
1,性能对比在1000张俄语商品图片上进行俄语标注,本方案与传统人工标注对比显著:| 说明:AI方案的字符准确率达到96.3%,这得益于双重校验机制。但在实际应用中,建议开发者在自己的数据集上进行验证。2,总结与展望本文提出的基于 PaddleOCR + ERNIE 4.5 的自动化标注方案,成功地将大模型的“智能”注入到传统OCR的数据准备环节,实现了:范式创新:从“人喂数据”到“AI自产数据”,重塑了OCR研发流程。效率革命:将数周的标注周期压缩至数小时,极大加速了模型迭代。
2025-08-29 11:17:07
850
原创 如何用算力魔方4060安装PaddleOCR MCP 服务器
算力魔方®是一款可以DIY的迷你主机,采用了抽屉式设计,后续组装、升级、维护只需要拔插模块。通过选择不同算力的计算模块,再搭配不同的 IO 模块可以组成丰富的配置,适应不同场景。性能不够时,可以升级计算模块提升算力;IO 接口不匹配时,可以更换 IO 模块调整功能,而无需重构整个系统。本文以下所有步骤将在带有英特尔i7-1165G7处理器英伟达4060独立显卡的算力魔方上完成验证。
2025-08-21 18:08:36
515
原创 算力魔方迷你主机的“八爪鱼”模式
Z系列算力魔方采用双层结构,第一层支持计算模块,提供基本功能,搭载CPU,内存,硬盘,第二层采用扩展模块,提供6个2.5G网口及一个硬盘位,尺寸为。
2025-08-21 17:11:20
535
原创 详解开源关键信息提取方案PP-ChatOCRv4的设计与实现
PP-ChatOCRv4 是一个开源的端到端关键信息抽取与智能问答系统,面向复杂文档的解析与交互场景。它结合 OCR 技术、结构化解析、向量检索 与 大语言模型(LLM),构建了从文档图像到结构化结果的完整处理链路 → PP-ChatOCRv4快速体验。大模型社区-飞桨星河AI Studio大模型社区1,核心设计理念模块化架构:组件松耦合,便于替换、扩展和二次开发多模态融合:结合视觉特征与文本语义,提高理解准确度检索增强:向量检索为 LLM 提供精准上下文,提升回答质量。
2025-08-21 17:10:01
1462
原创 用 ERNIE 4.5 与 PaddleOCR 3.0 实现文档翻译实践指南
PaddleOCR 3.0是业界领先、可直接部署的 OCR 与文档智能引擎,提供从文本识别到文档理解的全流程解决方案,提供了全场景文字识别模型PP-OCRv5、复杂文档解析PP-StructureV3和智能信息抽取PP-ChatOCRv4,其中PP-StructureV3在布局区域检测、表格识别和公式识别方面能力尤为突出,还增加了图表理解、恢复多列阅读顺序以及将结果转换为Markdown文件的功能。通过本文介绍的方法,你可以快速构建一个高质量的文档翻译系统,满足不同场景下的文档翻译需求。
2025-08-13 12:26:14
720
原创 动手学构建基于ERNIE 4.5 + WebSearch的应用:让答案更专业!
本项目展示了 ERNIE 4.5 结合 Web Search 的强大能力,解决了 LLM 在实际场景中的知识孤岛问题。欢迎开发者 fork、提交Issue、二次开发,共同推动大模型应用落地。
2025-07-25 09:59:20
759
原创 桌面清爽度+10086!华硕NUC13Pro:剪片狗&网瘾少女的桌面革命!
从“拖拉机”换到NUC 13 Pro,像诺基亚换iPhone 15 Pro Max!性能够猛,剪辑游戏两开花,关键——桌面终于能摆下我的零食、手办和八杯奶茶了!顶配小贵?想想省下的空间和理线时间,值!最后敲黑板: 2025年还用大机箱?你桌面的电线正在嘲笑你!迷你主机才是清爽未来!当然啦,选迷你主机也要看需求。追求极致小巧和日常全能,华硕NUC很棒;要是搞AI开发、工业控制、需要更强显卡或独特接口扩展性,不妨了解下我们算力魔方®这种模块化设计的‘积木式’AIPC,一次设计,多处应用,潜力无限哦!
2025-07-22 18:07:11
442
原创 在入门级工控机上跑YOLOv12?OpenVINO™加速实战(附完整步骤)
作者:算力魔方创始人/英特尔创新大使刘力场景痛点:工业现场需要实时目标检测,但设备预算有限?今天我们在千元级N97工控机上,用OpenVINO部署最新YOLOv12模型,实测效果超预期!
2025-07-07 13:23:38
517
原创 豆包AI播客:几十上百页的资料,不再费眼!
解放双眼,随时随地“听”知识:🚇 通勤路上:堵车?挤地铁?耳机一戴,百页报告轻松“听”完!👩💻 工作间隙:眼睛干涩?起身活动,边听边消化技术文档。🏃 家务健身:洗碗、跑步...碎片时间秒变充电黄金档!🌙 睡前放松:闭目养神,让有趣的故事流入脑海。(哄睡利器)🎁 贴心彩蛋:生成后,左下角一键调节语速!快慢随心,听得更爽!豆包AI播客:几十上百页的资料,不再费眼!(qq.com)以为只是“省眼睛”?豆包AI播客的隐藏大招更惊人!它能让你:✅ 不用学习写剧本...✅ 不用情人拍视频...
2025-06-19 18:41:51
673
1
原创 「打工人快上车」用deepseek+图表画廊,三步搞定专业图表!
无论你是做产品分析、市场报告还是项目总结,这个组合都能帮你把数据直观、美观地呈现出来,让领导和同事眼前一亮!下次需要柱状图?折线图?饼图?步骤完全一样!图表画廊提供模板,DeepSeek 负责适配数据,WPS 负责最终呈现。效率工具用得好,下班回家没烦恼!关注我,解锁更多AI提效神技,告别无效加班!如果你有更好的文章,欢迎投稿!稿件接收邮箱:nami.liu@pasuntech.com更多精彩内容请关注“算力魔方®”!
2025-06-12 22:00:17
483
原创 基于算力魔方与PP-OCRv5的OpenVINO智能文档识别方案
算力魔方是一款可以DIY的迷你主机,采用了抽屉式设计,后续组装、升级、维护只需要拔插模块。通过选择不同算力的计算模块,再搭配不同的 IO 模块可以组成丰富的配置,适应不同场景。性能不够时,可以升级计算模块提升算力;IO 接口不匹配时,可以更换 IO 模块调整功能,而无需重构整个系统。本文以下所有步骤将在带有Intel i5-1165G7处理器的算力魔方上完成验证。
2025-06-12 21:58:29
1586
原创 基于算力魔方的智能文档信息提取方案
深度学习技术,尤其是计算机视觉领域的光学字符识别(OCR)技术的进步,使得自动化和智能化的文档信息提取成为现实。本方案结合了Intel OpenVINO平台的性能优化优势与百度飞桨(PaddlePaddle)提供的PP-OCRv4模型,旨在开发一款高性能、高精度的智能文档处理系统。该方案结合了尖端的视觉识别技术和经过优化的计算性能,目的是提高文档处理的效率和精确度,适用于包括财务报表分析、合同审查在内的多种场景。通过选择不同算力的计算模块,再搭配不同的 IO 模块可以组成丰富的配置,适应不同场景。
2025-05-15 10:35:46
729
原创 在Cherry Studio中快速使用markitdown MCP Server?
在使用RAG技术配置私有知识库的过程中,由于RAG技术不能直接处理PDF这样的非结构化数据,所以,必须使用转换工具把PDF文档转换为RAG技术可以使用的结构化数据文档,例如:Markdown或JSON文档。最近MarkItDown发布了MarkItDown-MCP,一个轻量级的支持 STDIO 和 SSE 调用方式的MCP 服务器,方便AI大模型调用 MarkItDown。Cherry Studio的MCP服务器功能+Markitdown-MCP,可以非常方便的打造基于AI大模型的文档分析应用!
2025-05-15 10:19:10
982
原创 如何在Chery Studio部署个人的MCP助手?
访问Chery Studio的官方网站,找到MCP助手的下载页面。根据您的操作系统(Windows、macOS或Linux)选择对应的安装包,并下载至本地。打开MCP助手,进入“设置”或“API配置”页面,输入从Chery Studio获取的API KEY。按照以上步骤操作,您即可在Chery Studio中成功部署个人的MCP助手,并利用其自动化功能提升工作效率。在主界面,任意输入一个问题,若能直接返回问题答案则表示API调用成功。Windows:双击下载的`.exe`文件,按照安装向导完成安装。
2025-05-07 16:45:03
567
原创 算力魔方万兆网络实测
万兆网转向规模化商用,政策、技术和场景创新形成合力,未来主流台式机主板将逐步内置万兆网卡,现在台式机也可以通过插卡实现万兆网,macmini有万兆网版本,可根据需求选配,NAS也支持万兆网,算力魔方可选万兆网模块,未来3-5年影视制作、工业互联网等领域或会完成万兆网络渗透,家庭用户通过“NAS+万兆交换机”组合尝鲜,将重构家庭、工业及城市数字化体验,但需突破终端生态协同和成本优化等关键问题。支持小批量多批次交付,降低初期部署成本,模块化设计允许后期单独升级网络模块,无需更换整机,延长设备生命周期。
2025-05-07 15:22:47
1012
原创 如何用FastMCP快速开发自己的MCP Server?
FastMCP作为新一代Python风格的MCP服务开发框架,相较传统MCP Server开发需手动编写代码处理协议解析、服务发现、错误处理等底层功能,通过标准化协议实现和自动化代码生成,使用FastMCP开发MCP Server,开发者无需关心底层协议实现,只需专注MCP Server的函数实现,大大降低了开发工作量!然后,在AI助手对话框中,启动MCP Server,并输入提示词“show greet to me”,感受LLM调用自己开发的MCP Server。如果你有更好的文章,欢迎投稿!
2025-05-07 15:22:42
1759
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅