java读取word文档里面的内容(包括doc和docx格式)

本文介绍如何使用Java和Apache POI库读取doc和docx格式的Word文档内容。通过示例代码展示了读取不同格式Word文档的方法,并提供了所需POI库的下载链接。

java读取word文档里面的内容(包括doc和docx格式)

java读取word文档里面的内容(包括doc和docx格式),使用POI架包

使用的POI架包如下
poi-3.16.jar
poi-examples-3.16.jar
poi-excelant-3.16.jar
poi-ooxml-3.16.jar
poi-ooxml-schemas-3.16.jar
poi-scratchpad-3.16.jar

目前POI的最新发布版本是3.10_FINAL.该版本保护的jar包有:
在这里插入图片描述
很多人都困惑POI那么多Jar到底应该导入哪一个。

实际上很多时候我们只利用POI来操作Excel。甚至只用xls这一种格式。

那么就没有必要全部都导入了。具体应该使用哪个JAR包请参考以下内容:
在这里插入图片描述

当我们只要使用xls格式时、只要导入poi-version-yyyymmdd.jar就可以了。

当我们还要使用xlsx格式、还要导入poi-ooxml-version-yyyymmdd.jar。

至于poi-ooxml-schemas-version-yyyymmdd.jar这个jar基本不太会用到的。

当我们需要操作word、ppt、viso、outlook等时需要用到poi-scratchpad-version-yyyymmdd.jar。

读取word文档中,doc后缀的文件

直接上代码

//读取word文档中,doc后缀的文件
	public static List<String> searchWordDoc(String fileUrl){
		List<String> docList = new ArrayList<String>();
		String content=null;
		//读取字节流,读取文件路径
		InputStream input = null;
		try {
			input = new FileInputStream(new File(request.getSession().getServletContext().getRealPath(fileUrl)));
			WordExtractor wex = new WordExtractor(input);
			content = wex.getText();
			//System.out.println(content);
			docList.add(content);
		} catch (Exception e) {
			e.printStackTrace();
		}
		return docList;
	}

将文件路径传进来,最后得到的使一个List集合,是一行一行的读取,每一行的内容对应List的下标

读取word文档中,docx后缀的文件

直接上代码

	public static List<String> searchWordDocX(String fileUrl){
		//读取文件路径
		OPCPackage opcPackage = null;
		String content = null;
		List<String> docxList = new ArrayList<String>();
		try {
			opcPackage = POIXMLDocument.openPackage(request.getSession().getServletContext().getRealPath(fileUrl));
			XWPFDocument xwpf = new XWPFDocument(opcPackage);
			POIXMLTextExtractor poiText = new XWPFWordExtractor(xwpf);
			content = poiText.getText();
			docxList.add(content);
		} catch (IOException e) {
			e.printStackTrace();
		}
		return docxList;
	}

将文件路径传进来,最后得到的使一个List集合,是一行一行的读取,每一行的内容对应List的下标

最后附上jar包下载位置

百度网盘:https://pan.baidu.com/s/1Y4BLto_mEUkS7Xhx1GJmzA
提取码:vor5

评论 13
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值