Java提取Doc,Docx中的文本信息
1 代码效果
案例word,Doc,Docx2个版本都有

提取后效果docx

提取后效果doc

2 代码实现
import java.io.InputStream;
import java.nio.charset.Charset;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.ArrayList;
import java.util.List;
import org.apache.commons.lang3.StringUtils;
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.xwpf.usermodel.XWPFDocument;
import org.w3c.dom.NamedNodeMap;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
/**
* 将doc/docx 部分信息提取
* 推荐pom jdk1.8+
* <dependency>
<groupId>commons-io</groupId>
<artifactId>commons-io</artifactId>
<version>2.9.0</version>
</dependency>
<dependency>
<group

本文介绍了一种使用Java从Doc和Docx文件中提取文本的方法。通过Apache POI库,可以有效处理这两种格式的文档,适用于文档信息提取的需求。
最低0.47元/天 解锁文章
713

被折叠的 条评论
为什么被折叠?



