- 博客(189)
- 收藏
- 关注
原创 java版的ocr推荐引擎——JiaJiaOCR 2.0重磅升级!纯Java CPU推理,新增手写OCR与表格识别
JiaJiaOCR 2.0的升级核心,是从"解决Java开发者OCR集成痛点"到"提供全场景文本解析能力"的跨越。纯Java实现保障了跨平台部署的便捷性,新增的手写OCR与表格识别功能则直击实际业务中的高频需求。如果你正在为Java项目寻找轻量、高效、无依赖的OCR解决方案,不妨试试JiaJiaOCR 2.0——5分钟集成,一站式覆盖从印刷体到手写体、从文本识别到表格结构化的全需求。期待你的使用反馈,也欢迎一起讨论,让Java OCR生态更加强大!
2025-12-10 13:43:42
773
原创 纯 Java 实现的 OCR 推理系统:JiaJiaOCR,告别 exe/dll 依赖!
JiaJiaOCR的目标是为Java开发者提供一个简单、高效、跨平台的OCR解决方案,让OCR集成不再是难题。无论你是个人开发者还是企业团队,都可以轻松接入,快速实现OCR功能。如果你正在寻找Java OCR库,不妨试试JiaJiaOCR——纯Java实现,5分钟即可集成!
2025-12-09 10:53:44
498
原创 实现一种超轻量级的有线表格识别方法(有代码,可部署)
在无意间看到一篇CBMS2021的一篇论文《NanoNet: Real-Time Polyp Segmentation in Video Capsule Endoscopy and Colonoscopy》,该论文是专为视频胶囊内窥镜和结肠镜图像的息肉分割设计的架构,是一种医学图像分割的方法。故打算基于以上模型的架构去实现一超轻量级的有线表格识别方法,模型训练后的大小为。
2025-11-19 08:45:26
317
原创 构建智能医疗诊断助手:基于 LangGraph 和 DeepSeek 的实践指南
在医疗领域,诊断过程是一个复杂、多步骤且需要高度专业知识的流程。随着人工智能技术的发展,我们能够构建智能系统来辅助医生进行诊断,提高效率和准确性。本文将详细介绍如何使用 LangGraph 和 DeepSeek 模型构建一个智能医疗诊断助手,从设计理念到代码实现,为您提供一个完整的实践指南。完整项目见:https://github.com/jiangnanboy/medical-diagnosis-assistant。
2025-11-07 09:09:24
827
原创 视频转ppt/pdf V2.0版(新增转为可编辑PPT功能)
在V1.1基础上,新增加了视频转为可编辑PPT的功能,将文字转为可编辑形式,用户可以在转换后的PPT里进行修改,删除等操作。点击生成PPT(可编辑),针对提取后的内容,生成可编辑形式的PPT,可以对里面的文字进行手动编辑。转换流程是:提取内容 -> 去除重复项 -> 转为ppt/pdf。点击生成PPT(图像),针对提取后的内容,生成图像形式的PPT。在提取内容结束后,可点击去除重复项,去除提取的重复内容。点击生成PDF,针对提取后的内容,生成图像形式的PDF。在视频预览窗口单击视频的时间点,提取单帧视频。
2025-11-06 09:58:50
631
原创 基于机器学习优化的主图选择方法(酒店,景点,餐厅等APP上的主图展示推荐)
基于机器学习优化的主图选择方法(酒店,景点,餐厅等APP上的主图展示推荐)
2025-11-03 09:38:34
506
原创 我更新了几款文档智能处理桌面软件
本次针对「OCR识别」「文档比对」「文档图片处理」「视频转PPT/PDF」四款核心工具完成更新,从稳定性、轻量化、易用性三大维度优化体验,搭配全新名称与图标,让功能匹配更清晰,以下为详细内容。
2025-10-17 11:11:15
290
原创 自己动手做一款ChatExcel数据分析系统,智能分析 Excel 数据
在日常办公、业务分析或是学生处理作业数据时,Excel 表格几乎是大家离不开的数据处理工具。但传统的 Excel 分析往往需要掌握复杂的函数和代码知识,这让不少人在面对大量数据时望而却步。而今天,我要给大家介绍的 ChatExcel,正是为解决这一痛点而来,它能让 Excel 数据分析变得便捷又高效。一、项目简介:用智能打破数据分析壁垒ChatExcel 是一款专注于智能表格数据分析的工具,其核心分析能力基于deepseek 大模型构建。这一强大的技术支撑,使得 ChatExcel 能够深度理解 Excel
2025-10-16 13:50:16
749
原创 视频转档软件:高效实现视频与 PPT、PDF 的灵活转换
用户可通过拖拽时间轴或输入具体时间节点,精准圈定需要转换的视频片段(如课程中的重点章节、会议中的核心讨论环节、演讲中的关键观点部分),仅将该区间内的内容转换为 PPT 或 PDF,避免冗余信息干扰,让文档更聚焦核心要点。这款视频转 PPT 与 PDF 软件,以 “全场景转换 + 本地安全运行” 为核心优势,既解决了手动整理视频信息的效率难题,又消除了数据传输的安全顾虑,适用于企业办公、教育教学、个人学习等多种场景,是提升工作与学习效率、保障数据安全的实用工具。一、三大核心转换功能,覆盖多元使用场景。
2025-09-30 17:23:38
507
原创 文档图像处理桌面软件 V2.1.1 版
本软件是文档图像处理桌面工具的迭代升级版本(V2.1.1),在 V2.1 版本的核心能力基础上,重点新增矫正功能,进一步强化文档图像处理的实用性,更好适配日常办公等高频场景需求。漂白处理:优化文档图像色彩对比度,去除纸张泛黄、光线不均等问题,让文字、图案更清晰易读;去阴影优化:精准消除拍摄时因光线角度、遮挡产生的阴影(如手部阴影、桌面投影等),还原文档原始视觉效果;新增矫正功能:覆盖多场景图像修正需求,包括:文档扭曲矫正:自动修复拍摄时因角度偏差导致的文档变形(如褶皱扭曲);
2025-09-11 09:30:22
330
原创 复杂结构化场景下的通用公式识别
在科学文献智能化分析领域,数学公式的光学字符识别(OCR)技术是实现学术内容自动检索、编辑与分析的核心支撑,对学术研究与知识管理具有不可替代的作用。然而,当前无论是任务专用模型还是通用视觉语言模型(VLMs),在应对数学内容固有的结构多样性、复杂性及真实场景变异性时均存在明显短板。
2025-08-27 09:14:48
823
原创 文档智能识别的升级版V2.1 !离线 OCR + 表格秒提+截图!
https://pan.baidu.com/s/1owzG74DLPxq6czEQC7ZNwQ 提取码: nt3z。截图识别:点击截图会隐藏本软件,利用鼠标框选图片进行识别,极大方便了用户的截图需求。v2.0版本是将之前的OCR与表格识别整合到一个软件上。支持左侧栏图片列表的删除,鼠标或delete键删除。1.文档智能识别V2.0。2.文档智能识别V2.1。
2025-07-29 10:00:15
272
原创 使用LLM大模型进行结构化实体抽取
收集与准备:收集文档。预处理:将不同格式文档转换为干净的文本。人工标注:人工标记数千个实体。训练:利用专用模型进行微调训练。验证:对数据进行测试。即便投入了这么多时间和资源,准确率也很少能超过 90%。而当文档是图片或复杂的 PDF 时,情况就更棘手了,需要额外的光学字符识别(OCR)库,这又会引入新的潜在错误。传统NER最大的问题在于过于死板:只要与训练中使用的模式有任何偏差,就会导致提取失败。一份布局不同的合同,甚至是较差的图像质量,都可能影响提取结果。
2025-07-17 10:57:49
923
原创 文档比对升级版 V1.1
文档比对。目前,文档比对支持的格式,包括: 文本比对 txt 文件比对 docx 文件比对 excel 文件比对 pdf 文件比对
2025-07-16 09:16:40
307
原创 文档图像漂白桌面软件(有下载链接)
一款“文档漂白”桌面软件现已正式完成!为方便大家体验,所有软件均支持离线下载试用,无需联网即可畅快感受核心功能。下载链接已为您备好(见下方),若在使用过程中遇到任何问题、有功能建议或其他想法,欢迎随时与我联系,我会尽快为您解答处理~。关注我,联系我:番石榴AI。
2025-07-02 11:06:18
236
原创 表格识别、OCR识别以及文档比对桌面软件(有下载链接)
表格结构识别软件是一款功能强大的桌面应用程序,能够快速、准确地从图片中提取表格结构,并将其转换为可编辑的文本或格式化的表格数据。链接: https://pan.baidu.com/s/1VLdx-AIh-HdLj4UIb-nkMQ 提取码: nrz2。huggingface下载:https://huggingface.co/jiangnanboy/table_app。huggingface下载:https://huggingface.co/jiangnanboy/ocr_app。比对支持1.文本比对;
2025-07-01 16:31:40
394
原创 对monkeyOCR进行量化
monkeyOCR中的识别模型为3B模型,要想丝滑使用,16G的GPU是必需的,这对于一般用户来说成本还是高了,现在这里打算分别对其量化为8Bit和4Bit的更小模型,将其从7G大小量化4G和2.3G左右,这样8G的GPU即可丝滑使用。以下是量化代码,其中torch=2.5.1,transformers=4.50.0。【关注我,微信公众号:番石榴AI】
2025-06-24 13:47:26
257
2
原创 文档图片智能识别
无论是复杂的多行列表格,还是简单的基础表格,都能准确识别,适用于财务报表处理、数据统计分析等需要处理表格数据的业务场景,大大提高数据录入和处理的效率。版面识别功能接口主要用于分析图片中文档的版面结构,识别出文档中的标题、段落、列表、图表等不同类型的内容区域,并返回各区域的位置、类型等信息。通过该接口,能够快速了解文档的整体布局,为后续的内容处理和分析提供基础,适用于电子文档整理、文档自动化处理等场景。项目分别以python和java实现,可以sdk形式调用或独立离线和在线部署,
2025-06-12 10:34:46
512
原创 实现文档图片漂白小工具
实现文档图片漂白小工具。功能主要有:1.选择单张或多张图片进行漂白;2.可对漂白后的图片进行保存。二.单张图片进行漂白。三.多张图片进行漂白。
2025-05-29 17:23:06
210
原创 企业合同审核系统
实现企业合同审核系统。支持txt、word以及pdf格式文件的合同审核。功能主要有:1.审核功能主要有合同条款提取;审查报告以及准确性检查;2.分析结果可保存为txt、markdown或者html格式,便于查看。七.合同审核综合报告的保存,可保存为txt、markdown以及html格式。一.主界面,可上传txt、word及pdf格式合同文件。六.合同分析的准确性检查。二.合同关键条款提取。
2025-05-20 16:13:17
255
原创 文档比对工具的实现
文档内容比对桌面工具。软件名为“番石榴文档比对工具”。完全离线,无需联网,单机免安装运行。2.txt文件比对;3.docx文件比对;4.excel文件比对。三.文件比对(txt、docx以及excel文件)
2025-05-20 09:06:16
293
原创 OCR文字识别桌面版软件(二)
的升级,实现了界面重构,实现了批量图片的识别以及保存。软件名为“番石榴OCR文字识别工具”。完全离线,无需联网,单机免安装运行。主要功能是选择图片;保存结果为txt文件。另外图片的预览功能增加了通过鼠标放大缩小以及点击拖动功能。批量上传需要识别的图片,会出现在左侧列表栏中,可以点击右侧。,可以识别所有图片文字,点击左侧相应图片,右侧。发布于 2025-05-16 16:54・江苏。,会将所有图片识别的结果保存为一个txt文件。进行放大缩小以及拖动查看图片。会出现相应的识别结果。
2025-05-16 16:58:32
271
原创 实现OCR文字识别桌面版软件
这2天业余时间,实现了一款桌面版OCR文字识别软件工具,名字是“番石榴OCR识别工具”。完全离线,无需联网,单机免安装运行。主要功能是选择图片;保存结果可以直接保存为txt文件。
2025-05-16 09:59:23
239
原创 利用deepseek进行智能写作与文章总结
完整项目:https://github.com/jiangnanboy/ai_writer_summary/智能写作:智能总结:需要注册deepseek账号,利用deepseek进行分析与生成web页面利用streamlit,见web_ui.pyImages 智能写作界面:
2025-04-28 22:29:57
267
原创 多智能体架构
有时候,只有一个supervisor来做所有的决定,并决定调用哪个agent,agent可能会开始表现不佳,因为它可能处理太多的事情,并且需要是处理方面的专家。agent开始在工具选择上做出糟糕的决定。我们可以给我们在 Boss上欣赏的人发信息,或者某些社交软件上互发信息,这里的概念是一样的,但是现在有了agent,每个agent都可以和整个集合中的任何其他agent交谈。我们在搭建多agent时,随着需求越来越大,越来越多的工具进入我们的系统,而 agent 拥有多个工具,有时多达 10 多个工具。
2025-04-23 13:36:25
399
原创 理解提示工程与 AI 对话
理解提示工程与对话如果我们想知道什么是提示工程,想象一下我们有一个超级聪明的助手,但这个助手需要非常明确的指示才能做我们想做的事情。这有点像使用大型语言模型(LLM),这是许多 AI 工具背后的技术。提示工程基本上是给这些LLM正确的指示或提示的艺术和科学,这样他们就能理解我们需要什么,并给我们准确和有用的结果。可以把提示想象成我们给的输入,比如一个问题或一个请求。任何人都可以写提示,就像我们可以向朋友提问一样。
2025-04-23 10:15:36
785
原创 deepseek中文知识图谱生成
利用大模型deepseek对中文文本、图片以及pdf中的非结构化文本内容进行分析,并提取主-谓-宾(SPO)三元组的知识形式,以及将这些关系可视化为知识图谱,完整项目见。这里利用deepseek进行相关分析。
2025-04-16 22:19:05
482
原创 如何估计llm的GPU显存?
随着 GPT、 Llama 和 Deepseek等大型 llm 的兴起,人工智能从业者面临的最大挑战之一是弄清楚他们需要多少 GPU 显存来有效地为这些模型服务。这里通过一个简单有效的公式来估计LLM 服务所需的GPU 显存。使用上面的简单公式,我们可以估计不同精度级别所需的 VRAM,并相应地优化部署。如果我们正在处理像 Llama 70B 这样的大型模型,量化和并行是较好的选择,可以保持 GPU 成本可控。1. 使用量化:将我们的模型转换为 8 位或 4 位,以减少显存占用。
2025-04-01 10:57:41
1137
原创 模型上下文协议(MCP)简介
MCP 为更加互联的 AI 生态系统奠定了基础,使开发人员能够以最小的摩擦创建更智能,更强大的 AI 系统。随着越来越多的采用和不断的创新,MCP 有可能成为 AI 工具集成的行业标准,就像 TCP/IP 在网络中的作用一样。通过提供标准化的开源框架,MCP 简化了将 llm 连接到外部数据源、工具和工作流的过程,消除了复杂的一次性集成的需要。由 Anthropic 开发的 MCP 是开源的,这意味着任何人都可以使用和改进它,它旨在通过访问实时数据帮助 AI 给出更好、更相关的答案。
2025-03-28 14:57:39
882
番石榴文档比对V2.2.0,支持文本、word、excel、pdf、ofd以及图片内容的比对 并生成详细比对报告,包括相似度,修改的字符数等
2025-11-11
LLM 推理服务器基准测试工具是一款专业的性能测试软件,用于评估大语言模型(LLM)推理服务的性能 软件支持测试外部 API 服务(如 DeepSeek、OpenAI)和本地部署的模型,能够全面评估客
2025-10-29
人工智能基于LLM的智能代理系统设计:多模态工具编排与安全防护机制在复杂决策流程自动化中的应用
2025-10-27
文档图像处理V2.1.1版,支持:漂白(可保留红色印章,圈图保留不想漂白区域功能);增加分辨率;去阴影;文档矫正:扭曲矫正、手动透视矫正、文档切边矫正以及卡证切边矫正
2025-09-18
文档智能识别V2.3.1版本;支持:1.ocr;2.表格识别;3.pdf扫描件的ocr和表格识别;4.手写体ocr 优化了软件主界面和增加了一键保存全部结果功能
2025-09-29
文档图像处理V2.1版,支持:漂白(可保留红色印章);增加分辨率;去阴影;文档矫正:扭曲矫正、手动透视矫正、文档切边矫正以及卡证切边矫正 。
2025-09-10
智能文档识别V2.2修订版,功能:OCR+表格结构识别,截图识别
2025-08-20
文档图像漂白桌面软件,无需联网,单机运行,可对图像进行漂白,适合合同,公文等 支持可保留红色印章,图像高分辨率等功能
2025-08-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅