读取 2003 版本(.doc)的word文件相对来说比较简单,只需要
1. poi-3.5-beta6-20090622.jar
2. poi-scratchpad-3.5-beta6-20090622.jar
两个 jar 包即可,
而2007 版本(.docx)就麻烦多,是要导入的 jar 包比较的多,有如下 7 个之多:
1. openxml4j-bin-beta.jar
2. poi-3.5-beta6-20090622.jar
3. poi-ooxml-3.5-beta6-20090622.jar
4 .dom4j-1.6.1.jar
5. geronimo-stax-api_1.0_spec-1.0.jar
6. ooxml-schemas-1.0.jar
7. xmlbeans-2.3.0.jar
其中 4-7 是 poi-ooxml-3.5-beta6-20090622.jar 所依赖的 jar 包(在 poi-bin-3.5-beta6-20090622.tar.gz 中的 ooxml-lib 目录下可以找到)。
// word 2003: 图片不会被读取
InputStream is = new FileInputStream(new File("F:\\001.doc"));
WordExtractor ex = new WordExtr

这篇博客介绍了如何使用Apache POI库来读取2003版的.doc文件和2007版的.docx文件。针对2003版,只需要两个jar包,而2007版则需要更多的依赖。内容包括读取文本,但未提及如何处理图片。此外,还展示了如何通过POI解析Word中的表格,但提出了在文本和表格混合时解析的疑问。
最低0.47元/天 解锁文章
681

被折叠的 条评论
为什么被折叠?



