转载:如何用java实现抓取网页?

本文提供了一个使用Java抓取网页内容的示例代码。通过创建URL对象并打开连接,利用BufferedReader读取网页源码,并将其保存到本地文件中。此代码适用于初学者了解网页抓取的基本流程。

转载自:

http://chengyoyo2006.blog.163.com/blog/static/84517348200810542114322/


如何用java实现抓取网页?

JAVA技术 2008-11-05 16:21:14 阅读103 评论0   字号:   订阅

import java.net.*;
import java.io.*;

public class Catch1 {
     public void test(){
    StringBuffer document= new StringBuffer();
    try {
      URL url = new URL("http://www.sohu.com");
      URLConnection conn = url.openConnection();
      BufferedReader reader = new BufferedReader(new InputStreamReader(conn.getInputStream()));
      String line = null;
      while ((line = reader.readLine()) != null)
        document.append(line + "/n");
      reader.close();
    } catch (MalformedURLException e) {
      e.printStackTrace();
    } catch (IOException e) {
      e.printStackTrace();
    }

    //pzy add
    String str = document.toString();
    String strDir = "E://text";
    String strFile = "test.html";
    File myFile = new File(strDir, strFile);

    try {
      myFile.createNewFile();
      BufferedWriter bw = new BufferedWriter(
                            new FileWriter(myFile.getPath(), true));
      bw.write(str);
      bw.flush();
      bw.close();
    } catch (Exception ex) {
      ex.printStackTrace();
    }
  }

     public static void main(String[] args){
      Catch1 catch2=new Catch1();
         catch2.test();
           }
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值