用多线程实现的Java爬虫程序2

本文介绍了一个使用多线程技术实现的网页抓取爬虫程序。该程序能够从指定的URL开始抓取网页内容,并从中提取新的URL进行进一步抓取,直至达到预设的网页数量。程序通过创建新的线程来处理每个新发现的URL。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本程序是一个利用多线程实现网页抓取的爬虫程序。程序写的很具专业性,代码齐整,思路清晰,一目了然:输入起始URL—>获取对应的文件内容—>分离出新的URL,存入URL队列—>建立新的线程继续抓取新URL所对应的网页,直到抓取够预定的网页数。缺点是每抓取一组新的网页就要开启一个线程,不免有浪费系统资源的嫌疑。待改进……

接口:WebPage.java

Java代码
  1. import java.io.File;   
  2. import java.net.MalformedURLException;   
  3.   
  4. /*
  5. * 定义了WebPage对象的基本操作
  6. */  
  7. public interface WebPage   
  8. {   
  9.     /**根据网页地址将该网页转换成本地文件*/  
  10.     public File getPageFile();   
  11.        
  12.     /**分析网页的内容
  13.       * @throws MalformedURLException */  
  14.     public void parse() throws MalformedURLException;   
  15. }  
import java.io.File;
import java.net.MalformedURLException;

/*
 * 定义了WebPage对象的基本操作
 */
public interface WebPage
{
 /**根据网页地址将该网页转换成本地文件*/
 public File getPageFile();
 
 /**分析网页的内容
  * @throws MalformedURLException */
 public void parse() throws MalformedURLException;
}

实现以测试类:HTMLPage.java

Java代码
  1. import java.io.File;   
  2. import java.io.FileNotFoundException;   
  3. import java.io.FileOutputStream;   
  4. import java.io.IOException;   
  5. import java.io.InputStream;   
  6. import java.io.InputStreamReader;   
  7. import java.io.OutputStreamWriter;   
  8. import java.net.MalformedURLException;   
  9. import java.net.URL;   
  10. import java.util.HashSet;   
  11. import java.util.Set;   
  12. import java.util.regex.Matcher;   
  13. import java.util.regex.Pattern;   
  14. /**
  15. * 简单的蜘蛛爬虫,运行起来异常会很多,暂时先不管
  16. * @author gbk
  17. *
  18. */  
  19. public class HTMLPage extends Thread implements WebPage   
  20. {   
  21.     private static int pageId = 0;   
  22.     private static int MAX_PAGENUM = 1000;   
  23.     //存放处理过的URL,保证不重复   
  24.     private static Set<String> urls = new HashSet<String>();   
  25.     private File localFile;   
  26.     private StringBuffer contents;   
  27.     private URL url;   
  28.   
  29.     public HTMLPage(URL url)   
  30.      {   
  31.         this.url = url;   
  32.      }   
  33.        
  34.     /**
  35.       * 将网页下载到本地,用来以后分析
  36.       */  
  37.     public File getPageFile()   
  38.      {   
  39.         int ch = 0;   
  40.          contents = new StringBuffer();   
  41.          pageId++;   
  42.          localFile = new File("d:/html/"+pageId+".txt");   
  43.         try  
  44.          {   
  45.              InputStream inputStream = url.openStream();   
  46.              InputStreamReader inputStreamReader = new InputStreamReader(inputStream);   
  47.              FileOutputStream fileOutputStream = new FileOutputStream(localFile);   
  48.              OutputStreamWriter outputStreamWriter = new OutputStreamWriter(fileOutputStream);   
  49.             while((ch = inputStreamReader.read()) != -1)   
  50.              {   
  51.                  contents.append((char)ch);   
  52.                  outputStreamWriter.write(ch);   
  53.              }   
  54.              outputStreamWriter.close();   
  55.              fileOutputStream.close();   
  56.              inputStreamReader.close();   
  57.              inputStream.close();   
  58.          } catch (FileNotFoundException e)   
  59.          {   
  60.              e.printStackTrace();   
  61.          } catch (IOException e)   
  62.          {   
  63.              e.printStackTrace();   
  64.          }   
  65.         return localFile;   
  66.      }   
  67.        
  68.     /**
  69.       * 分析网页,将不重复的url地址添加到候选叶中
  70.       */  
  71.     public void parse() throws MalformedURLException   
  72.      {   
  73.         //无法处理内部链接,即不带http   
  74.          String regex ="<a.*?href=http://.*?>.*?</a>";   
  75.          Pattern pt=Pattern.compile(regex,Pattern.CASE_INSENSITIVE);   
  76.          Matcher mt=pt.matcher(contents);   
  77.         while(mt.find())   
  78.          {            
  79.             //获取网址   
  80.              Matcher myurl=Pattern.compile("href=.*?>").matcher(mt.group());   
  81.             while(myurl.find())   
  82.              {   
  83.                  String url = myurl.group().replaceAll("href=|>","");   
  84.                 //没有做同步,所以最后会稍微多出几个文件   
  85.                 if(!urls.contains(url)&&pageId<MAX_PAGENUM)   
  86.                  {   
  87.                      urls.add(url);   
  88.                     //新建一个线程,重复上述操作   
  89.                      HTMLPage page = new HTMLPage(new URL(url));   
  90.                      page.start();   
  91.                  }   
  92.              }   
  93.              System.out.println();            
  94.          }   
  95.      }   
  96.        
  97.     public void run()   
  98.      {   
  99.          getPageFile();   
  100.         try  
  101.          {   
  102.              parse();   
  103.          } catch (MalformedURLException e)   
  104.          {   
  105.              e.printStackTrace();   
  106.          }   
  107.      }   
  108.        
  109.     public static void main(String[] args) throws MalformedURLException   
  110.      {   
  111.          HTMLPage page = new HTMLPage(new URL("http://www.baidu.com"));   
  112.          page.start();   
  113.      }   
  114. }
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值