关于pdf转html的个人方法,pdf转html的另类方法

今天找到一本台湾朱秀娟的小说《女强人》的pdf版。想转成epub,但epubbuilder不支持pdf导入。只能找软件把它先转成txt,word或者html。

以前转pdf为word,txt,html都是用solid PDF

tools,软件功能比较强大,能把pdf直接转成txt、word、html等,转出来以后发现格式不太好:

1、有页码(多余)。

2、段内多余的换行符。

3、分段混乱。

如果用它直接制作成epub,估计读起来会头痛不已的。试了其它几种pdf工具,发现都会引起分段或者换行的混乱。急了不少时间。忽然想起,mobipocket

creator可以直接从pdf生成mobi,再用calibre转成epub不就行了。

先用mobipocket creator导入pdf,其实只要打开mobipocket

creator,把pdf文件拖入mobipocket

creator就行。然后点生成,在发布目录就有了mobi文件了。不过这本书没有目录(你或许可以利用mobipocket

creator的功能生成目录,不过不太好用)。当然,如果你用calibre把它转成epub后,再取出内部的xhtml文件,再用epubbuilder生成也行,不过多个文件很麻烦的。

在发布目录找生成的mobi文件时,偶然发现目录下已经生成了一个html文件,格式很不错,没有多作的换行符,也没有多余的图片,段落也很整齐。尽然意外的完成了pdf到html的转换。

再用epubbuilder转成epub,一次成功,版式还挺漂亮。有兴趣的可以到www.cnepub.com下载后看一下。

总之,如果用其它的pdf工具转换成html的格式不太好的话,(其实如果转成的html格式比较好的话,可以直接保存成txt,也就实现了转txt),可以用mobipocket

creator转换成html试一下,往往有不错的效果。方法就是前面说的,直接用mobipocket

creator把pdf生成mobi,html文件就是它的中间产物。顺便就一下,pdf中的图片也是中间产物,有人要提出图片的话,也可以用这种方法。

当然,这里的pdf是文本编码方式的,图片的pdf还是要做ocr的,不能直接转。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值