自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(189)
  • 收藏
  • 关注

原创 java版的ocr推荐引擎——JiaJiaOCR 2.0重磅升级!纯Java CPU推理,新增手写OCR与表格识别

JiaJiaOCR 2.0的升级核心,是从"解决Java开发者OCR集成痛点"到"提供全场景文本解析能力"的跨越。纯Java实现保障了跨平台部署的便捷性,新增的手写OCR与表格识别功能则直击实际业务中的高频需求。如果你正在为Java项目寻找轻量、高效、无依赖的OCR解决方案,不妨试试JiaJiaOCR 2.0——5分钟集成,一站式覆盖从印刷体到手写体、从文本识别到表格结构化的全需求。期待你的使用反馈,也欢迎一起讨论,让Java OCR生态更加强大!

2025-12-10 13:43:42 773

原创 纯 Java 实现的 OCR 推理系统:JiaJiaOCR,告别 exe/dll 依赖!

JiaJiaOCR的目标是为Java开发者提供一个简单、高效、跨平台的OCR解决方案,让OCR集成不再是难题。无论你是个人开发者还是企业团队,都可以轻松接入,快速实现OCR功能。如果你正在寻找Java OCR库,不妨试试JiaJiaOCR——纯Java实现,5分钟即可集成!

2025-12-09 10:53:44 498

原创 智能体系统设计与实战:基于langchain与langgraph

智能体系统设计与实战:基于langchain与langgraph

2025-12-02 08:49:11 469

原创 实现一种超轻量级的有线表格识别方法(有代码,可部署)

在无意间看到一篇CBMS2021的一篇论文《NanoNet: Real-Time Polyp Segmentation in Video Capsule Endoscopy and Colonoscopy》,该论文是专为视频胶囊内窥镜和结肠镜图像的息肉分割设计的架构,是一种医学图像分割的方法。故打算基于以上模型的架构去实现一超轻量级的有线表格识别方法,模型训练后的大小为。

2025-11-19 08:45:26 317

原创 文档内容比对桌面软件V2.2.0(新增详细报告输出)

文档内容比对桌面软件V2.2.0(新增详细报告输出)

2025-11-12 09:39:46 208

原创 构建智能医疗诊断助手:基于 LangGraph 和 DeepSeek 的实践指南

​在医疗领域,诊断过程是一个复杂、多步骤且需要高度专业知识的流程。随着人工智能技术的发展,我们能够构建智能系统来辅助医生进行诊断,提高效率和准确性。本文将详细介绍如何使用 LangGraph 和 DeepSeek 模型构建一个智能医疗诊断助手,从设计理念到代码实现,为您提供一个完整的实践指南。完整项目见:https://github.com/jiangnanboy/medical-diagnosis-assistant。​

2025-11-07 09:09:24 827

原创 视频转ppt/pdf V2.0版(新增转为可编辑PPT功能)

在V1.1基础上,新增加了视频转为可编辑PPT的功能,将文字转为可编辑形式,用户可以在转换后的PPT里进行修改,删除等操作。点击生成PPT(可编辑),针对提取后的内容,生成可编辑形式的PPT,可以对里面的文字进行手动编辑。转换流程是:提取内容 -> 去除重复项 -> 转为ppt/pdf。点击生成PPT(图像),针对提取后的内容,生成图像形式的PPT。在提取内容结束后,可点击去除重复项,去除提取的重复内容。点击生成PDF,针对提取后的内容,生成图像形式的PDF。在视频预览窗口单击视频的时间点,提取单帧视频。

2025-11-06 09:58:50 631

原创 基于机器学习优化的主图选择方法(酒店,景点,餐厅等APP上的主图展示推荐)

基于机器学习优化的主图选择方法(酒店,景点,餐厅等APP上的主图展示推荐)

2025-11-03 09:38:34 506

原创 LLM 推理服务器基准测试工具

软件界面分为配置和结果。

2025-10-30 09:42:07 904

原创 我更新了几款文档智能处理桌面软件

本次针对「OCR识别」「文档比对」「文档图片处理」「视频转PPT/PDF」四款核心工具完成更新,从稳定性、轻量化、易用性三大维度优化体验,搭配全新名称与图标,让功能匹配更清晰,以下为详细内容。

2025-10-17 11:11:15 290

原创 自己动手做一款ChatExcel数据分析系统,智能分析 Excel 数据

在日常办公、业务分析或是学生处理作业数据时,Excel 表格几乎是大家离不开的数据处理工具。但传统的 Excel 分析往往需要掌握复杂的函数和代码知识,这让不少人在面对大量数据时望而却步。而今天,我要给大家介绍的 ChatExcel,正是为解决这一痛点而来,它能让 Excel 数据分析变得便捷又高效。一、项目简介:用智能打破数据分析壁垒ChatExcel 是一款专注于智能表格数据分析的工具,其核心分析能力基于deepseek 大模型构建。这一强大的技术支撑,使得 ChatExcel 能够深度理解 Excel

2025-10-16 13:50:16 749

原创 视频转档软件:高效实现视频与 PPT、PDF 的灵活转换​

用户可通过拖拽时间轴或输入具体时间节点,精准圈定需要转换的视频片段(如课程中的重点章节、会议中的核心讨论环节、演讲中的关键观点部分),仅将该区间内的内容转换为 PPT 或 PDF,避免冗余信息干扰,让文档更聚焦核心要点。这款视频转 PPT 与 PDF 软件,以 “全场景转换 + 本地安全运行” 为核心优势,既解决了手动整理视频信息的效率难题,又消除了数据传输的安全顾虑,适用于企业办公、教育教学、个人学习等多种场景,是提升工作与学习效率、保障数据安全的实用工具。一、三大核心转换功能,覆盖多元使用场景​。

2025-09-30 17:23:38 507

原创 TexTAR :多领域多语言文档图像中的文本属性识别

TexTAR :多领域多语言文档图像中的文本属性识别

2025-09-28 09:04:05 880

原创 视频转ppt/pdf桌面软件V1.0

视频转ppt/pdf桌面软件V1.0

2025-09-18 09:31:39 1006

原创 文档智能识别V2.3(新增pdf扫描件和手写识别)

文档智能识别V2.3(新增pdf扫描件和手写识别)

2025-09-18 09:24:25 407

原创 文档图像处理桌面软件 V2.1.1 版

本软件是文档图像处理桌面工具的迭代升级版本(V2.1.1),在 V2.1 版本的核心能力基础上,重点新增矫正功能,进一步强化文档图像处理的实用性,更好适配日常办公等高频场景需求。漂白处理:优化文档图像色彩对比度,去除纸张泛黄、光线不均等问题,让文字、图案更清晰易读;去阴影优化:精准消除拍摄时因光线角度、遮挡产生的阴影(如手部阴影、桌面投影等),还原文档原始视觉效果;新增矫正功能:覆盖多场景图像修正需求,包括:文档扭曲矫正:自动修复拍摄时因角度偏差导致的文档变形(如褶皱扭曲);

2025-09-11 09:30:22 330

原创 文档比对升级版V2.1.1

文档比对升级版V2.1

2025-09-10 09:24:32 739

原创 文档比对升级版 V2.0

文档比对升级版 V2.0

2025-09-05 13:36:26 198

原创 复杂结构化场景下的通用公式识别

在科学文献智能化分析领域,数学公式的光学字符识别(OCR)技术是实现学术内容自动检索、编辑与分析的核心支撑,对学术研究与知识管理具有不可替代的作用。然而,当前无论是任务专用模型还是通用视觉语言模型(VLMs),在应对数学内容固有的结构多样性、复杂性及真实场景变异性时均存在明显短板。

2025-08-27 09:14:48 823

原创 基于 Aria 眼镜第一视角视觉的复杂环境场景文本检测与识别

基于 Aria 眼镜第一视角视觉的复杂环境场景文本检测与识别

2025-08-26 10:52:46 779

原创 文档智能识别的升级版V2.1 !离线 OCR + 表格秒提+截图!

https://pan.baidu.com/s/1owzG74DLPxq6czEQC7ZNwQ 提取码: nt3z。截图识别:点击截图会隐藏本软件,利用鼠标框选图片进行识别,极大方便了用户的截图需求。v2.0版本是将之前的OCR与表格识别整合到一个软件上。支持左侧栏图片列表的删除,鼠标或delete键删除。1.文档智能识别V2.0。2.文档智能识别V2.1。

2025-07-29 10:00:15 272

原创 文档智能识别V2.0:离线 OCR + 表格快速提取!​

文档智能识别V2.0:离线 OCR + 表格快速提取!​

2025-07-23 10:20:33 442

原创 使用LLM大模型进行结构化实体抽取

收集与准备:收集文档。预处理:将不同格式文档转换为干净的文本。人工标注:人工标记数千个实体。训练:利用专用模型进行微调训练。验证:对数据进行测试。即便投入了这么多时间和资源,准确率也很少能超过 90%。而当文档是图片或复杂的 PDF 时,情况就更棘手了,需要额外的光学字符识别(OCR)库,这又会引入新的潜在错误。传统NER最大的问题在于过于死板:只要与训练中使用的模式有任何偏差,就会导致提取失败。一份布局不同的合同,甚至是较差的图像质量,都可能影响提取结果。

2025-07-17 10:57:49 923

原创 文档比对升级版 V1.1

文档比对。目前,文档比对支持的格式,包括: 文本比对 txt 文件比对 docx 文件比对 excel 文件比对 pdf 文件比对

2025-07-16 09:16:40 307

原创 文档图像漂白桌面软件(有下载链接)

一款“文档漂白”桌面软件现已正式完成!为方便大家体验,所有软件均支持离线下载试用,无需联网即可畅快感受核心功能。下载链接已为您备好(见下方),若在使用过程中遇到任何问题、有功能建议或其他想法,欢迎随时与我联系,我会尽快为您解答处理~。关注我,联系我:番石榴AI。

2025-07-02 11:06:18 236

原创 表格识别、OCR识别以及文档比对桌面软件(有下载链接)

表格结构识别软件是一款功能强大的桌面应用程序,能够快速、准确地从图片中提取表格结构,并将其转换为可编辑的文本或格式化的表格数据。链接: https://pan.baidu.com/s/1VLdx-AIh-HdLj4UIb-nkMQ 提取码: nrz2。huggingface下载:https://huggingface.co/jiangnanboy/table_app。huggingface下载:https://huggingface.co/jiangnanboy/ocr_app。比对支持1.文本比对;

2025-07-01 16:31:40 394

原创 对monkeyOCR进行量化

monkeyOCR中的识别模型为3B模型,要想丝滑使用,16G的GPU是必需的,这对于一般用户来说成本还是高了,现在这里打算分别对其量化为8Bit和4Bit的更小模型,将其从7G大小量化4G和2.3G左右,这样8G的GPU即可丝滑使用。以下是量化代码,其中torch=2.5.1,transformers=4.50.0。【关注我,微信公众号:番石榴AI】

2025-06-24 13:47:26 257 2

原创 食品配料营养分析工具

这里实现一款桌面软件“番石榴。

2025-06-17 16:19:14 259

原创 文档图片智能识别

无论是复杂的多行列表格,还是简单的基础表格,都能准确识别,适用于财务报表处理、数据统计分析等需要处理表格数据的业务场景,大大提高数据录入和处理的效率。版面识别功能接口主要用于分析图片中文档的版面结构,识别出文档中的标题、段落、列表、图表等不同类型的内容区域,并返回各区域的位置、类型等信息。通过该接口,能够快速了解文档的整体布局,为后续的内容处理和分析提供基础,适用于电子文档整理、文档自动化处理等场景。项目分别以python和java实现,可以sdk形式调用或独立离线和在线部署,

2025-06-12 10:34:46 512

原创 实现文档图片漂白小工具

实现文档图片漂白小工具。功能主要有:1.选择单张或多张图片进行漂白;2.可对漂白后的图片进行保存。二.单张图片进行漂白。三.多张图片进行漂白。

2025-05-29 17:23:06 210

原创 企业合同审核系统

实现企业合同审核系统。支持txt、word以及pdf格式文件的合同审核。功能主要有:1.审核功能主要有合同条款提取;审查报告以及准确性检查;2.分析结果可保存为txt、markdown或者html格式,便于查看。七.合同审核综合报告的保存,可保存为txt、markdown以及html格式。一.主界面,可上传txt、word及pdf格式合同文件。六.合同分析的准确性检查。二.合同关键条款提取。

2025-05-20 16:13:17 255

原创 文档比对工具的实现

文档内容比对桌面工具。软件名为“番石榴文档比对工具”。完全离线,无需联网,单机免安装运行。2.txt文件比对;3.docx文件比对;4.excel文件比对。三.文件比对(txt、docx以及excel文件)

2025-05-20 09:06:16 293

原创 OCR文字识别桌面版软件(二)

的升级,实现了界面重构,实现了批量图片的识别以及保存。软件名为“番石榴OCR文字识别工具”。完全离线,无需联网,单机免安装运行。主要功能是选择图片;保存结果为txt文件。另外图片的预览功能增加了通过鼠标放大缩小以及点击拖动功能。批量上传需要识别的图片,会出现在左侧列表栏中,可以点击右侧。,可以识别所有图片文字,点击左侧相应图片,右侧。发布于 2025-05-16 16:54・江苏。,会将所有图片识别的结果保存为一个txt文件。进行放大缩小以及拖动查看图片。会出现相应的识别结果。

2025-05-16 16:58:32 271

原创 实现OCR文字识别桌面版软件

这2天业余时间,实现了一款桌面版OCR文字识别软件工具,名字是“番石榴OCR识别工具”。完全离线,无需联网,单机免安装运行。主要功能是选择图片;保存结果可以直接保存为txt文件。

2025-05-16 09:59:23 239

原创 利用deepseek进行智能写作与文章总结

完整项目:https://github.com/jiangnanboy/ai_writer_summary/智能写作:智能总结:需要注册deepseek账号,利用deepseek进行分析与生成web页面利用streamlit,见web_ui.pyImages 智能写作界面:

2025-04-28 22:29:57 267

原创 多智能体架构

有时候,只有一个supervisor来做所有的决定,并决定调用哪个agent,agent可能会开始表现不佳,因为它可能处理太多的事情,并且需要是处理方面的专家。agent开始在工具选择上做出糟糕的决定。我们可以给我们在 Boss上欣赏的人发信息,或者某些社交软件上互发信息,这里的概念是一样的,但是现在有了agent,每个agent都可以和整个集合中的任何其他agent交谈。我们在搭建多agent时,随着需求越来越大,越来越多的工具进入我们的系统,而 agent 拥有多个工具,有时多达 10 多个工具。

2025-04-23 13:36:25 399

原创 理解提示工程与 AI 对话

理解提示工程与对话如果我们想知道什么是提示工程,想象一下我们有一个超级聪明的助手,但这个助手需要非常明确的指示才能做我们想做的事情。这有点像使用大型语言模型(LLM),这是许多 AI 工具背后的技术。提示工程基本上是给这些LLM正确的指示或提示的艺术和科学,这样他们就能理解我们需要什么,并给我们准确和有用的结果。可以把提示想象成我们给的输入,比如一个问题或一个请求。任何人都可以写提示,就像我们可以向朋友提问一样。

2025-04-23 10:15:36 785

原创 deepseek中文知识图谱生成

利用大模型deepseek对中文文本、图片以及pdf中的非结构化文本内容进行分析,并提取主-谓-宾(SPO)三元组的知识形式,以及将这些关系可视化为知识图谱,完整项目见。这里利用deepseek进行相关分析。

2025-04-16 22:19:05 482

原创 如何估计llm的GPU显存?

随着 GPT、 Llama 和 Deepseek等大型 llm 的兴起,人工智能从业者面临的最大挑战之一是弄清楚他们需要多少 GPU 显存来有效地为这些模型服务。这里通过一个简单有效的公式来估计LLM 服务所需的GPU 显存。使用上面的简单公式,我们可以估计不同精度级别所需的 VRAM,并相应地优化部署。如果我们正在处理像 Llama 70B 这样的大型模型,量化和并行是较好的选择,可以保持 GPU 成本可控。1. 使用量化:将我们的模型转换为 8 位或 4 位,以减少显存占用。

2025-04-01 10:57:41 1137

原创 模型上下文协议(MCP)简介

MCP 为更加互联的 AI 生态系统奠定了基础,使开发人员能够以最小的摩擦创建更智能,更强大的 AI 系统。随着越来越多的采用和不断的创新,MCP 有可能成为 AI 工具集成的行业标准,就像 TCP/IP 在网络中的作用一样。通过提供标准化的开源框架,MCP 简化了将 llm 连接到外部数据源、工具和工作流的过程,消除了复杂的一次性集成的需要。由 Anthropic 开发的 MCP 是开源的,这意味着任何人都可以使用和改进它,它旨在通过访问实时数据帮助 AI 给出更好、更相关的答案。

2025-03-28 14:57:39 882

番石榴文档比对V2.2.0,支持文本、word、excel、pdf、ofd以及图片内容的比对 并生成详细比对报告,包括相似度,修改的字符数等

番石榴文档比对V2.2.0,支持文本、word、excel、pdf、ofd以及图片内容的比对。并生成详细比对报告,包括相似度,修改的字符数等。

2025-11-11

番石榴PPT-V2.0版,可视频转为可编辑形式的ppt

番石榴PPT-V2.0版,可视频转为可编辑形式的ppt。

2025-11-06

LLM 推理服务器基准测试工具是一款专业的性能测试软件,用于评估大语言模型(LLM)推理服务的性能 软件支持测试外部 API 服务(如 DeepSeek、OpenAI)和本地部署的模型,能够全面评估客

LLM 推理服务器基准测试工具是一款专业的性能测试软件,用于评估大语言模型(LLM)推理服务的性能。软件支持测试外部 API 服务(如 DeepSeek、OpenAI)和本地部署的模型,能够全面评估客户端和服务器端的性能指标。

2025-10-29

人工智能基于LLM的智能代理系统设计:多模态工具编排与安全防护机制在复杂决策流程自动化中的应用

内容概要:本文《Agent 构建实用指南》系统介绍了基于大语言模型(LLM)的智能代理(Agent)的设计与实现方法,涵盖代理的核心概念、适用场景、基础组件(模型、工具、指令)、编排模式(单代理与多代理系统)、防护措施及人工干预机制。重点讲解了如何通过合理的指令设计、工具定义和系统编排构建可靠代理,并提供了管理者模式与去中心化模式的具体实现示例,强调在复杂任务中使用分层防护和渐进式开发的重要性。; 适合人群:具备一定AI和软件开发基础的产品经理、工程师及技术决策者,尤其是正在探索或准备部署智能代理系统的研发团队;工作年限建议1-3年以上,熟悉LLM应用场景者更佳。; 使用场景及目标:①识别适合构建代理的高价值复杂场景,如客户服务、欺诈分析、多步骤自动化流程;②掌握从单代理到多代理的系统设计与编排方法;③学习如何通过指令优化、工具管理与安全防护提升代理的稳定性与安全性;④为实际项目中构建可信赖、可扩展的代理系统提供实践指导。; 阅读建议:建议结合OpenAI Agents SDK或其他框架动手实践文中示例代码,重点关注指令设计、工具拆分与防护机制的实现。在学习过程中应从小规模单代理系统起步,逐步过渡到多代理协同,并持续通过真实用户反馈迭代优化系统。

2025-10-27

用于定时提醒,剪切版历史以及笔记记录桌面小助手

用于定时提醒,剪切版历史以及笔记记录桌面小助手

2025-10-23

文档图像处理V2.1.1版,支持:漂白(可保留红色印章,圈图保留不想漂白区域功能);增加分辨率;去阴影;文档矫正:扭曲矫正、手动透视矫正、文档切边矫正以及卡证切边矫正

文档图像处理V2.1.1版,支持:漂白(可保留红色印章,圈图保留不想漂白区域功能);增加分辨率;去阴影;文档矫正:扭曲矫正、手动透视矫正、文档切边矫正以及卡证切边矫正。

2025-09-18

文档智能识别V2.3.1版本;支持:1.ocr;2.表格识别;3.pdf扫描件的ocr和表格识别;4.手写体ocr 优化了软件主界面和增加了一键保存全部结果功能

文档智能识别V2.3.1版本;支持:1.ocr;2.表格识别;3.pdf扫描件的ocr和表格识别;4.手写体ocr。优化了软件主界面和增加了一键保存全部结果功能。

2025-09-29

讲座视频转为ppt和pdf工具软件 单机离线运行,保证数据安全

讲座视频转为ppt和pdf工具软件。单机离线运行,保证数据安全。

2025-09-15

文档图像处理V2.1版,支持:漂白(可保留红色印章);增加分辨率;去阴影;文档矫正:扭曲矫正、手动透视矫正、文档切边矫正以及卡证切边矫正 。

文档图像处理V2.1版,支持:漂白(可保留红色印章);增加分辨率;去阴影;文档矫正:扭曲矫正、手动透视矫正、文档切边矫正以及卡证切边矫正。

2025-09-10

文档图像处理V2.0版,支持:漂白(可保留红色印章);增加分辨率;去阴影

文档图像处理V2.0版,支持:漂白(可保留红色印章);增加分辨率;去阴影。

2025-09-09

智能文档识别V2.2修订版,功能:OCR+表格结构识别,截图识别

智能文档识别V2.2修订版,功能:OCR+表格结构识别,截图识别。 修订:1.支持拖动图片到列表中;2.支持清空列表;3.截图时可按esc或鼠标右击退出截图。

2025-08-20

pdf转为扫描件,免费

将pdf文件转为扫描件,免费。

2025-08-20

文档图像漂白桌面软件,无需联网,单机运行,可对图像进行漂白,适合合同,公文等 支持可保留红色印章,图像高分辨率等功能

文档图像漂白桌面软件,无需联网,单机运行,可对图像进行漂白,适合合同,公文等。支持可保留红色印章,图像高分辨率等功能。

2025-08-05

智能文档识别V2.1版本,功能:OCR+表格结构识别,截图识别

智能文档识别V2.1版本,功能:OCR+表格结构识别,截图识别。

2025-07-28

文档智能识别V2.0:离线 OCR + 表格快速提取!​

文档智能识别V2.0:离线 OCR + 表格快速提取!​

2025-07-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除