自己动手写优快云博客提取器源码分析之二:处理网页保存为doc文件

本文介绍了一个简单的Java程序,该程序使用itext包将抓取到的网页内容转换并保存为DOC文件。文中提供了完整的源代码示例,展示了如何设置文档格式、添加页眉及正文内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

转载自: http://blog.youkuaiyun.com/w397090770/article/details/7768089

 

下面是把抓取到的网页用itext包保存为doc文件,过程很简单的。下面是这个类的实现:

  1. /** 
  2.  *  
  3.  */  
  4. package com.wyp.html2doc;  
  5.   
  6. import java.io.File;  
  7. import java.io.FileOutputStream;  
  8. import java.io.StringReader;  
  9. import java.util.List;  
  10.   
  11. import com.lowagie.text.Document;  
  12. import com.lowagie.text.Element;  
  13. import com.lowagie.text.HeaderFooter;  
  14. import com.lowagie.text.PageSize;  
  15. import com.lowagie.text.Paragraph;  
  16. import com.lowagie.text.Phrase;  
  17. import com.lowagie.text.Rectangle;  
  18. import com.lowagie.text.html.simpleparser.HTMLWorker;  
  19. import com.lowagie.text.html.simpleparser.StyleSheet;  
  20. import com.lowagie.text.rtf.RtfWriter2;  
  21.   
  22. /** 
  23.  * @author w397090770 
  24.  * Create Data: 2012-7-18 
  25.  * Email: wyphao.2007@163.com 
  26.  *  
  27.  * 版权所有,翻版不究,但是在修改本程序的时候务必加上这些注释。谢谢 
  28.  * 仅用于学习交流之用 
  29.  */  
  30. public class saveAsDOC {  
  31.     @SuppressWarnings("unchecked")  
  32.     public  void getDoc(File file, String contents, String title) throws Exception {  
  33.         //file是保存文件的文件夹路径,contests是前面处理好的网页源码,title是帖子的标题,用于标记生成的文件名          
  34.         File saveFileName = new File(file.getAbsoluteFile() + File.separator + title + ".doc");  
  35.         if(!saveFileName.exists()){  
  36.             saveFileName.createNewFile();  
  37.         }else{      //和以前处理txt文件一样,如果先前这个文件已经存在,我们就不打算再去生成doc文件了,直接返回  
  38.             return;  
  39.         }  
  40.         // 设置纸张大小  
  41.         Document document = new Document(PageSize.A4);  
  42.         // 建立一个书写器(Writer)与document对象关联,通过书写器(Writer)可以将文档写入到磁盘中  
  43.         RtfWriter2.getInstance(document,new FileOutputStream(saveFileName));  
  44.         document.open();  
  45.         // 设置中文字体  
  46.         //BaseFont bfChinese = BaseFont.createFont("STSongStd-Light","UniGB-UCS2-H", BaseFont.NOT_EMBEDDED);  
  47.         // 正文字体风格  
  48.         //Font contextFont = new Font(bfChinese, 12, Font.NORMAL);  
  49.           
  50.         // 添加页眉  
  51.         HeaderFooter header = new HeaderFooter(new Phrase(title), false);  
  52.         header.setAlignment(Rectangle.ALIGN_CENTER);  
  53.         document.setHeader(header);  
  54.         // 添加页脚  
  55.         /*HeaderFooter footer = new HeaderFooter(new Phrase(), false); 
  56.         footer.setAlignment(Rectangle.ALIGN_CENTER); 
  57.         document.setFooter(footer);*/  
  58.           
  59.           
  60.         Paragraph paragraph = new Paragraph();  
  61.         paragraph.setAlignment(Element.ALIGN_LEFT);  
  62.         paragraph.setFirstLineIndent(20);  
  63.   
  64.         StyleSheet ss = new StyleSheet();  
  65.         // 添加网页里面的东西  
  66.         List<Element>htmlList = HTMLWorker.parseToList(new StringReader(contents),ss);  
  67.         for (int i = 0; i < htmlList.size(); i++) {  
  68.             Element e = htmlList.get(i);  
  69.             paragraph.add(e);  
  70.         }  
  71.   
  72.         document.add(paragraph);  
  73.         document.close();  
  74.     }  
  75. }  


 

代码很简单吧。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值