【案例】--解析提取docx文档案例

DreamBoy_W.W.Y

于 2023-10-29 20:39:34 发布

阅读量345

点赞数

分类专栏：案例文章标签： java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/xunmengyou1990/article/details/133762074

版权

案例专栏收录该内容

20 篇文章 ¥89.90 ¥99.00

订阅专栏

超级会员免费看

本文探讨了如何精确地从docx文档中按页提取文本、图片和表格等信息，包括zip解压XML解析、PDF转换解析技术，并提出使用mongodb存储方案，以支持关键词搜索和页面定位。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

一、前言
二、问题一：如何精准的对docx文档按照页进行精准提取出文本、图片、表格等位置/信息
三、问题三：mongodb存储方案

一、前言

项目中遇到这样的一个需求：“一个docx文档，用户根据关键词能搜索定位到文档的哪一页”。docx文档主要有文本、表格、图片、附件这几类组合，为了达到高精度要求，表格、图片、附件等附带的内容也要能够搜索定位到，那么，对docx文档的每一页要收集上述几类的数据，以便后续功能扩展。
以上就是这个需求的核心诉求，针对上面的问题，首先我们要解决的是：(1)、“如何精准的对docx文档按照页进行精准提取出文本、图片、表格等位置/信息”；(2)、对图片中文字信息进行提取；(3)、如何方便的搜索关键字，并快速定位哪一页的文本还是图片。
上述3个问题，我们逐步去分析。
第一个问题：“如何精准的对docx文档按照页进行精准提取出文本、图片、表格等位置/信息”。 针对这个问题，可以有三种方法解析docx文档，但各种方法也有不足之处，可以根据自己的业务场景去选择最佳的方式。
第二个问题：“对图片中文字信息进行提取”。后续研究中！！！
第三个问题：“如何方便的搜索关键字，并快速定位哪一页的文本还是图片”。针对这个问题，需要借助ES的搜索能力，mongodb存储数据、上传图片&#x

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

DreamBoy_W.W.Y 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。