使用Java的POI工具进行Word的DOC文档转为HTML页面技术简介

最新推荐文章于 2023-08-03 14:05:48 发布

原创

最新推荐文章于 2023-08-03 14:05:48 发布 · 1.3k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#Java #POI #MS-WORD #HTML #文件解析转码

使用Java的POI工具进行Word的DOC文档转为HTML页面技术简介

1. 下载POI工具并引用。

2. 读取整个doc文档，获得该文档的所有字符串。

3. 从该字符串中得到标题，把该标题构成一个HTML格式的字符串，如<html><head><title>测试文档</title></head><body>。

4. 从该文档中判断是否有表格，如有，把每个表格的开始偏移量，结束偏移量记录下来，同时根据每个表格的行，列读取表格的内容，并构造出表格的HTML字符串。

5. 从该字符串的第一个字符开始逐个字符循环，得到字符的字体，字号大小，直到下一个字符的字体，字号不一样时，把这些字符内容构造成一个HTML格式的字符串。

6. 如果碰到字符为回车符，制表符，把回车符，制表符构造成HTML格式的字符串。

7. 如果碰到字符为图片，读取图片，把图片放在指定路径，再把这一路径的信息构造成HTML字符串，如<img src='c://test//1.jpg'/>。

8. 如读取字符串的位置等于表格的开始偏移量时，插入前面一构造出的表格HTML字符串，同时跳过表格的结束偏移量，继续往下循环读取字符。

9. 由于以上读取是按字符串逐个读取，并且根据字符的变化同时构造出HTML字符串，所以当字符串读取完毕后，即构造出一个完整的HTML字符串。、

10. 举例源代码：

/**
 *  POI读取word转

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。