自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 真实场景VS实验室环境,字节发布的WildDoc基准数据集向OCR提出了什么挑战?

字节跳动与华中科大联合发布首个自然环境中文档理解基准数据集WildDoc,包含12,000+真实场景文档图像,覆盖光照、扭曲等多重干扰因素。研究发现主流AI模型在真实场景下识别准确率平均下降35.3%,其中物理扭曲影响最大。该数据集提出ConsistencyScore新指标评估模型鲁棒性,揭示当前文档解析技术在移动拍摄等现实应用中的性能瓶颈。测试显示现有工具通过图像预处理技术可有效矫正弯曲、阴影等问题,但整体仍需针对性优化。该研究推动文档解析技术向实用化发展,对教育、办公等高频使用场景具有重要价值。

2025-06-11 14:25:57 630

原创 大模型再聪明也怕“脏文档”!企业知识库高准确率的隐藏前提

企业知识库建设成为AI转型热点,但80%企业因非结构化文档格式复杂导致知识库难以有效使用。理想的文档解析工具需具备多模态处理、复杂元素提取、可溯源、高性能和安全性等能力。合合信息旗下TextIn文档解析工具专为LLM设计,支持PDF/Office/HTML等格式解析,保留原始结构,可提升AI对文档的理解能力,赋能企业知识库和RAG系统建设。其母公司18年OCR技术积累为产品提供支撑,助力企业解决文档预处理难题。

2025-06-04 15:58:55 761

原创 从OCR到Document Parsing,AI时代的非结构化数据处理发生了什么改变?

智能文档处理技术正成为企业数字化转型的关键引擎。面对占比高达80%的非结构化数据挑战,传统的OCR技术已无法满足需求。文档解析技术融合OCR、NLP和深度学习,不仅能识别文字,更能理解文档结构和语义关系,将发票、合同等非结构化数据转化为可直接分析的标准化格式。该技术大幅提升了数据处理效率,降低了人工成本和错误率,在金融、保险、零售等行业展现出广泛应用前景,包括证件识别、合同审查、财务对账等场景,有效解决了信息孤岛问题,为智能决策提供了数据基础。

2025-06-04 14:08:51 1059

原创 TextIn合同产品新升级,全新审查模块等你体验

立刻体验。

2025-05-30 14:27:20 184

原创 TextIn OCR Frontend前端开源组件库发布!

TextIn开源OCRFrontend前端组件库,帮助开发者快速搭建票据识别结果审核界面。该React组件库支持图片/PDF预览、文本坐标高亮、双向联动查看等功能,特别适配票据类key-value解析结果的展示。提供FilePreview、ResultView等核心组件,支持二次开发。特性包括文件预览、坐标回显、JSON展示等,未来将支持更多自定义配置和编辑功能。开发者可通过npm安装使用,项目基于vite+react构建,支持自主扩展。

2025-05-28 11:17:07 896

原创 TextIn通用篡改检测重磅升级!

TextIn通用篡改检测在升级!商超小票篡改痕迹一扫便知,积分p图兑福利不再存在在。报销材料篡改痕迹高亮提醒,赋能企业财务报销场景双保险。

2025-05-23 10:11:40 129

原创 0代码,5分钟,搭建出企业级文档处理MCP Agent

MCP(模块化计算平台)凭借其“万物互联”的设计理念,迅速吸引了广泛关注。其核心优势在于能够像积木一样灵活拼装各类AI能力,形成更强大的智能体(Agent),有效解决了大模型应用开发中的碎片化、工具调用链固化及安全与性能问题。以TextInMCPServer为例,它集成了文字识别、文档解析和信息抽取等功能,显著提升了文档处理的准确性和效率。通过嵌入MCP协议,用户可以在多种平台上快速接入TextInMCPServer,实现无代码批量解析文件、合同比对等复杂任务。

2025-05-21 16:13:25 605

原创 Coze扣子文档解析 VS. 专业OCR工具,RAG知识库搭建性能真实测评!

本文通过评测Coze解析和专业解析工具TextIn的性能,发现TextIn按层级分段策略效果最佳,目录识别准确性和段落表格完整性对RAG系统性能有重要影响。评测结果表明,专业解析工具在跨页表格和有线表格的解析上表现更优,能有效避免信息损失。本文为RAG知识库的搭建和选品提供了参考,强调了文档解析在预处理环节的重要性。

2025-05-21 15:51:32 1191

原创 TextIn MCP Server使用教程,教你无代码搭建Agent

想象一下,你有很多不同的工具,比如一个锤子、一个螺丝刀和一个扳手,每个工具都有自己的使用方法和规则。如果没有一个统一的协调方式,你可能需要分别学习每个工具的用法,而且每次使用的时候都要费劲地去调整和适配,这非常麻烦。这样,开发者只需要通过MCP协议,就可以轻松地让不同的大模型和外部工具协同工作,大大提高了开发效率,也降低了开发难度。为实现智能文档处理任务与LLM更好的交互,进一步提高开发者接入效率与体验,方便用户无代码搭建Agent,TextIn MCP Server近日正式上线。

2025-05-15 18:19:53 277

原创 LLM“力大砖飞”的时代,OCR专有模型还有意义吗?

随着大模型(LLM)如DeepSeekR1的发布和Agent开发的扩展,AI应用正深入改变各行各业。尽管大模型在解决多种任务上表现出色,但专有小模型如OCR仍然具有不可替代的重要性。OCR作为信息处理的关键步骤,将物理文档转化为电子数据,是AI处理信息的基础。大模型虽然在泛化任务上表现优异,但在专业领域和精确度要求高的任务上,小模型如OCR仍显示出其独特优势。大模型和小模型将长期共存,各自发挥其优势,通过协同工作实现更高效和精准的AI应用。例如,RAG技术通过结合大模型的知识和小模型的文档解析能力

2025-05-14 18:00:58 1021

原创 AI帮大忙!这个判卷/去印/建题库/的减负神器,老师一定要知道

AI技术在教育领域的应用正迅速扩展,从简单的聊天对话到复杂的多模态大模型,AI正在改变教育的各个方面。TextIn作为一款AI教育工具,通过算法、计算机视觉和自然语言处理技术,解决了手写擦除、自动判题、错题整理和表格解析等教学难点,提升了教学效率。它支持手写文字的快速识别和自动擦除,智能处理复杂场景,恢复文档至手写前状态,节约成本并鼓励试卷循环利用。此外,TextIn还能智能解析题目,快速构建错题库,处理图像质量问题,并自动判题,包括复杂的作文批改。AI技术的应用为教育行业带来了新的曙光,TextIn等工具

2025-05-14 10:56:15 927

原创 PDF文档解析新突破:图表识别、公式还原、手写字体处理,让AI真正读懂复杂文档!

输入:在线可用、API调用实时响应、本地部署也支持,一次性可处理万页以上的数据;:具有各类常见文档的识别解析能力,对有线无线表格、章节、标题、列表、公式、手写体、扫描件全部精准识别并结构化输出;测评指标中分了6个维度,针对标题、段落、文本、阅读顺序、公式、表格进行定量测评。因为实际文档中常包含公式、表格、手写批注、文字段落等各种难以提取的元素。等,尤其涉及到文档中的复杂表格内容,模型往往就错误百出了。:学术论文、商业报告、教育试卷、政府公文、工程图纸等。:支持跨行合并、嵌套表格、带注释的复杂表格,

2025-05-09 10:30:17 1087

原创 TextIn ParseX重磅功能更新:支持切换公式输出形式、表格解析优化、新增电子档PDF去印章

国际物流运输中,运单信息包含发货人和收货人的详细地址,这些地址往往包含多行信息,如门牌号、街道、城市、国家等。在解析学术论文、国标文件、试卷等文档时,精确识别并保留公式的完整结构(如上下标、积分符号、矩阵等),以便用于学术引用、智能判题使用。电子档的银行流水、银行对账单、银行回单等材料,通常都有印章,如果不去除,会影响识别结果中的数字准确率,导致下游数据处理出错。,用户可以通过参数控制不同层级的输出,支持自由切换公式输出形式,实现对公式解析的差异化需求。表格解析支持单元格内换行的处理。

2025-05-07 14:31:41 948

原创 一键擦除手写笔迹,这款学习利器省时省力

凡是给小朋友辅导过功课,或是自己有过考证经验的朋友,想必都对成沓成堆的书本、习题册、试卷、资料不太陌生。尽管电子化办公已逐渐走向成熟,“笔头”和“案卷”仍然是大家成长过程中必经的一环。与之相伴的,是涂改得花花绿绿、覆满字迹的纸页。2当作业和试卷批改完,需要整理错题、二次利用试卷的时候,问题来了:充满涂改痕迹的纸张应如何处理?手抄或手打错题?那未免太过“费人”。如今,科技相关的从业者普遍认为,AI技术的发展能给我们的日常生活带来变革和便利。

2025-04-30 11:17:51 447

原创 TextIn MCP Server正式发布,无代码搭建智能文档处理Agent!

TextIn MCP Server 支持的架构图如下,用户可便捷接入所有支持 MCP 协议的大模型,节省工程成本。

2025-04-30 11:09:46 419

原创 信息快速录入,用这个OCR工具是真能提升效率

有效降低大模型幻觉风险!审核结论、依据和完整思考过程同步展示,审核依据可溯源,依据位置原文高光提示,心里更有谱。而由于多种现实因素的阻碍,这一环节的人工难以被替代,从而拖累企业整体的服务效率。保单、行驶证、事故认定书、维修清单、医疗发票等,一键识别混杂格式(扫描件、拍照、Excel),自动分类归档,客户发来的保单照片,有的是扫描件,有的是手写备注,“车牌号”可能写在“车辆信息”栏,系统无法抓取正确信息。电子保单、纸质回执、微信截图混杂,信息分散在PDF、图片、甚至聊天记录中,人工复核错误率高,对账难同步。

2025-04-25 10:15:34 190

原创 接通API即赠!这个超好用的AI工具平台限时送福利

对于企业和个人开发者来说,文档解析、图像处理、文档抽取、票据识别等等都是非常实用的产品,像是搭建知识库、搭建AI智能体、提取非标准格式数据等场景都能用得上。凡是接通并调用TextIn API(仅限文档解析、文档抽取、图像处理、票据处理产品),调用次数大于等于1次,即可获赠2000次/页免费额度,智能识别各类非标准文档、票据、卡证中的关键信息,依托于垂直领域的语义模型,智能抽取字段信息,助力数据结构化。问:API调用文档解析接口,识别结果清晰度低,怎么处理?答:对照API文档,用对参数,即可解决。

2025-04-24 10:38:05 248

原创 OCR技术难点解读:数学公式检测与识别

此外,还提出了一个查询构造模块来帮助解码器并行解码ME树的分支,从而减少解码时间步骤的数量,并缓解长序列注意解码的问题,从而提高识别性能。:鉴于CNN在处理长距离依赖关系方面的局限性,较新的模型利用基于视觉的Transformer,如Swin Transformer,通过自注意力机制提供了更强大的全局上下文管理能力,特别适用于处理复杂的数学表达式[17]。目前的MEDR利用深度学习模型,通过边界框定位或实例分割技术,精确地识别并分离出文档中的数学表达式区域,强化了对复杂和多样的数学表达式结构的处理能力。

2025-04-23 14:11:26 869

原创 物流行业在用AI抢时效!

当整个行业都在吹捧"次日达""分钟级配送"时,却很少有人注意到幕后的从业者,他们还在用最原始的方式,支撑着这个行业的高速运转。比如,从手写运单到PDF报价单,物流人每天要面对的文档格式超过数十种,文档版式各种各样,要依靠人眼阅读再手动录入。比如,电子表格、手写便签、拍照文档混杂,传统OCR几乎难以满足所有识别要求,最终还是要靠人工识别审核。然而,这些效率低下的工作流程正在消耗员工精力、造成企业资源的浪费,也削弱了企业的核心竞争力。,系统将运用AI大模型进行全文语义理解,智能识别判定,完成归类工作。

2025-04-18 10:51:22 331

原创 TextIn ParseX文档解析参数使用指南(第一期)

启用该参数时,ParseX会提取文档中每个字符的详细信息,包括字符的位置、字体、字号等,适用于需要对文档的排版和格式进行精细分析或处理的场景,例如在处理设计文档、排版校对或需要保留原始格式的文档时。当启用该参数时,文档解析工具会构建一个文档的层级结构树,通常用于表示文档的逻辑结构,例如标题、段落、表格等元素的层级关系,帮助更好地理解文档的逻辑结构,便于后续的文档处理和分析。启用该参数时,ParseX会提取页面中的更多细节,如页面的布局、图像位置、文本的排版等,有助于更完整地还原文档的原始布局和视觉效果。

2025-04-17 11:57:17 557

原创 实测对比|法国AI独角兽公司发布的“最强OCR”,实测效果如何?

3月上旬,法国一家AI独角兽公司进军OCR(光学字符识别)领域,发布了一个号称“全世界最好的OCR”产品,根据其技术团队的说明,这款OCR产品具备优秀的准确度和认知能力,能够理解文档的每个元素(包括文本、表格、公式等),从图像和PDF中提取内容信息。与当前市场或学术界其他文档解析工具一样,这款产品(下文中简称为“A产品”)旨在对AI难以直接识别的复杂文档进行解析处理,提升类似RAG等文档场景下的AI应用性能。

2025-04-02 11:25:21 804

原创 理解文字识别:一文读懂OCR商业化产品的算法逻辑

文字识别是一项“历久弥新”的技术。早在上世纪初,工程师们就开始尝试使用当时有限的硬件设备扫描并识别微缩胶片、纸张上的字符。随着时代和技术的发展,人们在日常生活中使用的电子设备不断更新换代,文字识别的需求成为一项必备的技术基础:不论是工厂序列号检测,还是手机拍照翻译,都离不开准确高效的识别技术。在文档智能应用领域,文字识别同样是不可或缺的一环,它能够将系统的覆盖范围从纯电子文档扩展到扫描、拍照、甚至手写领域,极大提升实用范围与性能。本文将介绍文字识别技术方案,解析商业化产品的算法逻辑。

2025-03-26 18:17:05 856

原创 DeepSeek办公实战:5分钟搭建【文档识别+审核】AI自动化工作流

根据国际数据公司(IDC)调研显示,到2027年,全球非结构化数据将占到数据总量的86.8%,非结构化数据在“AI时代”的重要性已不言而喻。非结构化数据是指没有固定格式的数据,如文本文档、电子邮件、视频音频、社媒帖子等。这些数据难以用传统的数据库表格进行存储和管理,因为其没有明确的结构和标准化的格式。然而这类数据处理难度较大,当传统“人眼+Excel”模式难以为继,如何将文档分类、审核、分析的效率提升至“秒级响应”,则成为企业降本增效的核心命题。

2025-03-21 11:53:37 1740

原创 GDC大会回顾 | Textin ParseX:重构文档智能边界,赋能下一代LLM生产力引擎

如PDF、扫描件、图像、合同、财报等。这些数据因格式复杂、布局多样(如双栏排版、混合表格、手写批注)难以被传统AI模型有效利用,成为“沉默的财产”。:ParseX将文档拆解为“段落集合”,结合OCR与深度学习,对扫描件、电子档差异化解析,最终合并为结构化数据,直接对接大模型应用。,将文档拆解为“原子化元素”(如表格、图表、公式、印章),并还原逻辑结构,为LLM提供高纯度数据燃料。:基于深度学习与OCR技术,精准提取页眉、表格、公式等元素,支持扫描件与电子档差异化处理;

2025-03-14 17:18:04 768

原创 知识库使用指南:手把手带教DeepSeek /Coze知识库搭建

TextIn具备先进的版面分析技术,能够准确还原复杂扫描文件,无论是多栏文本还是带有图表的内容,TextIn都能实现清晰稳定的输出。但在实际应用中,企业有大量数据在PDF、扫描件、图片、网页等非结构化文档中,这些多来源、多格式、多版式布局的非结构化数据,很难被大模型准确解析,从而引发大模型生成式答案幻觉。TextIn是一款专注于文档解析的工具,它能够快速、准确地解析各种格式的文档,包括 PDF、Word、Excel,甚至是手写的笔记和复杂的表。提取的文档阅读顺序混乱,文档内容的逻辑性和连贯性差。

2025-03-13 12:02:15 905

原创 推理大模型时代,TextIn ParseX助力出版业知识资产重构

强大的版面分析能力版面分析能力决定了机器获得的信息输入,是一份和人类阅读到的一样“图文并茂”的文档,还是一份格式混乱的“乱码”。DLA可以利用视觉特征分析物理布局,让机器能够“看懂”文档的结构,识别文字、表格和图片的位置。TextIn版面分析算法结合物理与语义信息,在物理布局分析的基础上,将不同的文字块根据语义建模,根据语义角色对文档元素进行分类,例如标题、图表或页脚,有能力处理各种复杂的文档类型,比如带有图表、图片和多栏排版的专业期刊或报告,且能够准确解析长文档标题目录结构。稳定的精确结果输出。

2025-03-12 17:48:56 866

原创 图表解析技术:逆向提取图表数据,需要哪几步?

对于我们时代的所有“PPT工作者”来说,图表是一位熟悉的“老朋友”了。通过Office、编程语言库或是更丰富的生成工具,我们能够便捷地将数据绘制成美观、抓眼、适宜展示的图表,在各类汇报、讲演、宣传工作里起到比表格数字更直观的效果。然而,当我们产生了与之相反的需求:将各色报告或论文中的图表逆向转化为原始数据,用于数据处理分析,又应该怎么做呢?与绘制图表相比,解析它们的任务提出了更精密的技术要求。本期内容中,我们将初步探讨图表解析技术的构成与发展历程。

2025-03-06 18:11:45 1178

原创 从视觉到语义逻辑:版面分析技术浅析

如何理解版面分析(DLA)技术在产业或生活产生的作用?想象一下,在一家电商巨头的仓库里,每天都有海量的物流单据需要处理。过去,员工们需要手动录入信息,费时费力,而且很难避免疏漏错误。这背后,是DLA技术从实验室走向现实的典型场景。文档版面分析(DLA)的研究始于20世纪90年代,最初主要关注简单文档结构,主要使用基于规则的方法或统计技术,融入特征提取和模式识别,使得系统能初步理解文字在页面上的相对位置和关系。进入21世纪后,DLA开始引入特征工程和机器学习,将任务视为基于像素的语义分割。

2025-02-27 10:17:11 756

原创 用户的声音 | 文档结构化信息提取方案测评:LLM、开源模型部署与云端API,谁是合适选择?

对于测试结果要求,首先,最重要的标准是结果可用。当前结构化信息提取技术虽呈现多样化发展,但对于开发者而言,结构化信息提取的“落地”与“可用性”才是真正的考验,研究论文中的指标和高精度模型在生产环境中可能面临性能瓶颈、成本过高、部署难度大等现实挑战。从原理上,这种方法可以自如地进行转换,同时可以在转换过程中保留尽可能多的视觉信息,基础的诸如标题层级,进阶的还可以对图片进行一定的语义解释。视觉大模型方案成本高昂且可靠性较差,尽管近来有较多类似功能的开源仓库,但效果较差,价格高,速度慢,因此不建议使用此类方案。

2025-02-19 14:13:38 1072

原创 新功能内测!图表解析上线,一键帮助大模型读懂图表数据

近期,大模型出色的性能和推理能力引起了广泛关注,大量企业或调用API,或在本地部署模型,运用大模型提升业务与办公效率。对于没有明确数值的复杂图表,TextIn接口也会通过精确测量给出预估数值,在仅有扫描件、图片文件的情况下,帮助挖掘更多有效数据信息,完成分析及预测工作。对于有数值标注的图表,TextIn文档解析可以直接输出准确表格,将其转化为结构化数据,方便后续的数据入库、分析或输入大模型进行处理。可以看到,未经过解析的柱状图对大模型的理解造成了干扰,经过图表转化后,模型给出了准确、优质的答案。

2025-02-12 13:55:05 509

原创 文档图像矫正任务的前沿进展:引入Transformer框架、极坐标的思路

该框架包括一个几何矫正 Transformer 和一个照明矫正 Transformer,通过设置一组学习的查询嵌入,几何矫正 Transformer 捕获文档图像的全局上下文,并解码像素级位移解决方案以纠正几何失真。引入了一种新的端到端框架,它不仅考虑了文档图像的二维几何变换,还结合了3D形状信息来进行更精确的矫正。提出了一种新颖的多范围 Polar-Doc-IOU 损失函数,作为极坐标下的基于网格的正则化,约束控制点之间的关系,提高学习效果,获得更好的去皱性能。

2025-01-22 14:37:31 910

原创 版面分析技术研究方向:真实世界中更丰富的版面布局

在文档解析工作中,我们日常会遇到种类繁多的文件类型:书籍、期刊、论文、企业年报、公告、金融研报、国标材料、试卷,等等不胜枚举。基于深度学习方法,当前的版面分析技术能够妥善处理包括多栏排版论文、跨页无线表格在内的众多复杂版面情况。尽管如此,仍有更丰富的案例进入我们的视野,它们被应用于学术研究、AI训练等场景,特殊的版面构成向当前的技术提出了挑战。例如,以下的报纸页面。以报纸、杂志为代表的版面结构复杂,缺乏统一性,解析难度相较其他文档更高。

2025-01-15 18:43:43 1036

原创 【邀请函】TextIn文档解析合伙人限时招募中,参与内测赢好礼!

请查收您专属的TextIn文档解析内测邀请函

2025-01-13 14:30:01 501

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除