将 Word 文件 转换 为 HTML 工具类

本文介绍了一种将Word文档转换为HTML格式的方法,利用OpenOffice的服务实现自动化转换,便于嵌入帮助文档等文件到应用程序中。

有一段时间 没有写 博客了, 过年 过的逍遥了大门不出二门不迈  ,天天闷在家里打 穿越火线,TNN变成宅男了 ,哎,玩物丧志这句话谁说的 , 一点都不假,该收敛一下了 。

公司项目  UI  设计阶段  基本完成了 , 现在步入工具阶段了 ,公司领导要  帮助文档,规程文档 这类文件  嵌入程序中 , 可是帮助文档规程文档东西全都Word文档,  虽然  可以 把 这些 东西 通过工具 的  转换为  CHM 电子格式, 到时一个连接 就可以 调用  XX帮助电子文档。

有没有更简单方法 ? 例如 把  Word 文档  直接  通过  Html 的 格式  以  网页形式 直接 呈现给 用户 呢 , 当然 是可以的啦 ,本人 说实话 就是比较那种

因为那个 制作电子书的 那个 方案 我觉得 太麻烦了 ( 主要懒得去研究  那么麻烦 东西)。

经过左思又考  觉得 还是 写一个  直接将 Wrod  转为Html 工具方式  呈现给用户 加 方便简介,不需要 大量的 时间 浪费 到   电子书 制作 上。  

于是很快想到了  一个 解决方案, 那就是 以前给公司做网站项目中 了一个 在线文档模块, 里面有 通过各种文档文件转换为 PDF  之后 在 通过 转换工具 

SWF 文件 以 Flash 方式 展现给用户(就是类似百度文库,豆丁在线文档...), 于是 一个小小的、牛逼的、帅帅工具产生了,哇~哈哈哈......

自我感慨YY害羞一下白话了一堆),切入正题,所做操作步骤如下:


第一:下载必备工具OpenOffice.org 3.2 (zh-CN) Installation Files  使用工具 主要是 使用 内部服务。

            如果想要  工具形式 转换, 此8100服务必须 开啦,要不 不能转换的啦。


第二:下载 jodconverter-2.2.2.zip 包, 包中的 lib 的 jar 包 都是 为 转换准备的。


第三:下载了 不用不对i地,默认 安装 OpenOffice.org 3.2 程序, 有的个别 杀毒软件  回报一些 警告阻止 提示 , 直接 给 添加 信任服务即可。


第四:安装完毕之后呢, 当然 是要 开启 服务了, 安装 OpenOffice.org 3.2 的 目的 就是 为了 使用 其中的 8100 服务地,

           打开 运行文本框中 输入 cmd 进入 命令窗口, 进入到 的 默认安装路径  

          【提示一下,一般都会C:\Program Files\OpenOffice.org 3\program这个路径下,

              但是 64系统会在 C:\Program Files(x86)\OpenOffice.org 3\program 这个路径下 

             其区别 就是 多了一个 (x86),自己用的 是 64Win7系统,后来发现安装好多软件

              都不兼容,郁闷不得了现在公司配了 32Win7系统。


            依次使用如下命令即可:

命令1:cd C:\Program Files\OpenOffice.org 3\program

命令2:soffice -headless -accept="socket,host=127.0.0.1,port=8100;urp;" -nofirststartwizard

执行玩 这两条命令之后 , 8100 服务就会 被打开了 , 你也可以 使用  netstat -an 这个 命令 查看  8100 端口 是否 真的 被打开了。


打开  MyEclipse6.5  , 开发到现在 几乎 MyEclipse这些 版本 差不多 都用过了, 但是后期 还是 觉得 这个 6.5 比较好用,

8.5之后 机器 卡的不行, 配置 好的机器还可以,配置 稍微 的 , 跑起来 就是多么杯具了。

呃~~~~~好似  脱离正题我们继续哈....  其中建立一个公共类:名为WordToHtml.java  代码共享如下


package com.stars.windpowersystem.util;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.ConnectException;
import java.util.Date;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import com.artofsolving.jodconverter.DocumentConverter;
import com.artofsolving.jodconverter.openoffice.connection.OpenOfficeConnection;
import com.artofsolving.jodconverter.openoffice.connection.SocketOpenOfficeConnection;
import com.artofsolving.jodconverter.openoffice.converter.OpenOfficeDocumentConverter;

/**
 * 描述: TODO 将Word文档转换成html字符串的工具类
 * 
 * @类名称: WordToHtml
 * @作者: 宋延军
 * @邮箱: songyanjun_stars@126.com
 * @日期: Feb 9, 2012 10:07:21 AM
 */
public class WordToHtml {

	/**
	 * 描述: TODO 调用测试
	 * @标题: main
	 * @设定: @param args
	 * @返回类型: void
	 */
	public static void main(String[] args) {
		
		Long time1 = System.currentTimeMillis();
		Long time2 = System.currentTimeMillis();
		
		System.out.println(
				toHtmlString(new File("C:/Users/Administrator/Desktop/风电可靠性信息管理系统/01_需求分析文档/风电可靠性管理信息系统需求分析文档V5.0(最新).doc"), "C:/Users/Administrator/Desktop/风电可靠性信息管理系统/01_需求分析文档/tempDir"));
		
		System.out.println("执行效率为:"+(time2-time1));
	}

	/**
	 * 将word文档转换成html文档
	 * 
	 * @param docFile   需要转换的word文档
	 * @param filepath  转换之后html的存放路径
	 * @return 转换之后的html文件
	 */
	public static File convert(File docFile, String filepath) {
		// 创建保存html的文件
		File htmlFile = new File(filepath + "/" + new Date().getTime()+ ".html");
		// 创建Openoffice连接
		OpenOfficeConnection con = new SocketOpenOfficeConnection(8100);
		try {
			// 连接
			con.connect();
		} catch (ConnectException e) {
			System.out.println("获取OpenOffice连接失败...");
			e.printStackTrace();
		}
		// 创建转换器
		DocumentConverter converter = new OpenOfficeDocumentConverter(con);
		// 转换文档问html
		converter.convert(docFile, htmlFile);
		// 关闭openoffice连接
		con.disconnect();
		return htmlFile;
	}

	/**
	 * 将word转换成html文件,并且获取html文件代码。
	 * 
	 * @param docFile  需要转换的文档
	 * @param filepath 文档中图片的保存位置
	 * @return 转换成功的html代码
	 */
	public static String toHtmlString(File docFile, String filepath) {
		// 转换word文档
		File htmlFile = convert(docFile, filepath);
		// 获取html文件流
		StringBuffer htmlSb = new StringBuffer();
		try {
			BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(htmlFile)));
			while (br.ready()) {
				htmlSb.append(br.readLine());
			}
			br.close();
			// 删除临时文件
			htmlFile.delete();
		} catch (FileNotFoundException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}
		// HTML文件字符串
		String htmlStr = htmlSb.toString();
		// 返回经过清洁的html文本
		return clearFormat(htmlStr, filepath);
	}

	/**
	 * 清除一些不需要的html标记
	 * 
	 * @param htmlStr 带有复杂html标记的html语句
	 * @return  去除了不需要html标记的语句
	 */
	protected static String clearFormat(String htmlStr, String docImgPath) {
		// 获取body内容的正则
		String bodyReg = "<BODY .*</BODY>";
		Pattern bodyPattern = Pattern.compile(bodyReg);
		Matcher bodyMatcher = bodyPattern.matcher(htmlStr);
		if (bodyMatcher.find()) {
			// 获取BODY内容,并转化BODY标签为DIV
			htmlStr = bodyMatcher.group().replaceFirst("<BODY", "<DIV").replaceAll("</BODY>", "</DIV>");
		}
		// 调整图片地址
		htmlStr = htmlStr.replaceAll("<IMG SRC=\"", "<IMG SRC=\"" + docImgPath + "/");
		// 把<P></P>转换成</div></div>保留样式
		// content = content.replaceAll("(<P)([^>]*>.*?)(<\\/P>)",
		// "<div$2</div>");
		// 把<P></P>转换成</div></div>并删除样式
		htmlStr = htmlStr.replaceAll("(<P)([^>]*)(>.*?)(<\\/P>)", "<p$3</p>");
		// 删除不需要的标签
		htmlStr = htmlStr
				.replaceAll("<[/]?(font|FONT|span|SPAN|xml|XML|del|DEL|ins|INS|meta|META|[ovwxpOVWXP]:\\w+)[^>]*?>", "");
		// 删除不需要的属性
		htmlStr = htmlStr
				.replaceAll("<([^>]*)(?:lang|LANG|class|CLASS|style|STYLE|size|SIZE|face|FACE|[ovwxpOVWXP]:\\w+)=(?:'[^']*'|\"\"[^\"\"]*\"\"|[^>]+)([^>]*)>", "<$1$2>");
		return htmlStr;
	}
}


哥哥共享代码 ,不要不声不响哦, 这样很不地道, 我辛辛苦苦的 分享 我的经验, 我容易我, 坏的,至少 评论一下吧,这样 才能 促进动力


Over!!!


评论 7
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值