(6) POI定位word表格

本文介绍了一种将Word文档转换为HTML的方法,重点解决了表格和图片的位置定位问题,并通过特定标记识别表格开始位置。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这里可以读word目录,word表格,word图片。当然不只是读出来,而是将word转成html。(我们的还要将word内容进行分页显示)

我在前两篇里已经写到如何读word的表格,word的图片。

这里边涉及两个定位问题,一是表格位置,另一个是图片位置。

图片位置。我解决图片位置是首先读出word中的图片放到list中去,然后采用文本方式读word,读出来替换(int)1 + ""。插入图片链接。

至于这种方式是否100%奏效,我不清楚。因为我也是读到有图片word后,输出unicode码观察才知道。

ps:昨天翻阅api,读PicturesTable类,那里也是这么说的,应该是没什么问题的。 

表格位置。由于是先解决的图片,而且也可以通过简单的方法拿到所有的表格,所以顺着图片的思路就下来了,但是发现用那种方式无法解决。

呵呵,原本要放弃了,但是我一想既然可以从word里拿出表格,就一定有方式定位到表格的开头。于是断点跟入源码。发现了解决方式。就是paragraph.isInTable() && paragraph.getTableLevel() == 1。

考虑到表格开始的特殊判断方式,最终决定使用看似比较笨的方式来读取纯文本。

 

  1. HWPFDocument hwpfDoc = new HWPFDocument(inputStream);  
  2. Range range= hwpfDoc.getRange();  
  3. int paraNum = range.numParagraphs();  
  4. List tempList = new ArrayList();  
  5. boolean tableBegin = true;  
  6.         String str = null;  
  7.         for (int j = 0; j < paraNum; j++) {     
  8.             Paragraph para = range.getParagraph(j);  
  9.             if(para.isInTable()&& tableBegin) { //在表格里,且是表格开始。  
  10.                 str = "这是一个表格标志";  
  11.                 tableBegin = false;  
  12.             } else if(!para.isInTable()) {//不在表格里  
  13.                 tableBegin = true;  
  14.                 str = para.text();  
  15.             }else {                      //在表格里,但不是表格开始。  
  16.                 continue;  
  17.             }  
  18.             str = doLuanMa(str);  
  19.             //替换图片连接。  
  20.             while (str.indexOf((int)1 + "") != -1) {  
  21.                 str = str.replaceFirst((int)1 + """<a href="\" mce_href="\""WordPicture?pic="  
  22.                         + i + "\">图片</a>");  
  23.                 i++;  
  24.             }  
  25.             tempList.add(str);  

 

表格处理余下的思路就和图片一样了。

最后在唠叨两句,由于处理过程消耗的内存不小,没有修改Jre内存很可能出现内存溢出,这并不是程序有什么死循环。

消耗内存我也愁啊。并发访问岂不是很容易挂掉...~_~


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值