获取网站所有标签里的内容

package test;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Kurasu {
 
 static public String getURL(String u) {
  URL url;// 用来读取网站的html源码
  InputStream is;// 用来读取html源码
  InputStreamReader isr;// 用来读取html源码
  BufferedReader r;// 缓冲区,一次读取一行
  String str;// 将读取到的一行数据放到这里
  String html = "";// 用来存储网站的html源码
  try {
   System.out.println("Reading URL:" + u);
   url = new URL(u);
   is = url.openStream();// 打开数据流
   isr = new InputStreamReader(is);
   r = new BufferedReader(isr);
   // 循环读取html源码
   do {
    str = r.readLine();
    if (str != null) {// 当读取到的那一行不为空时
     System.out.println(str);// 将读取到的一行显示到控制台
     html = html + str;// 将读取到的每一行累加
    }
   } while (str != null);
  } catch (MalformedURLException e) {
   System.out.println("Must enter a valid URL");
  } catch (IOException e) {
   System.out.println("Can't connect");
  }
  return html;
 }

 static public void main(String args[]) throws IOException {
  // 获得网站的html代码,并放到str中.
  String str = getURL("http://www.163.com");
  
//   // 表示/
//   /s 表示匹配一个空白字符,包括/n,/r,/f,/t,/v等
//   *  表示匹配前面元字符0次或多次,/ba*/将匹配b,ba,baa,baaa
//   [^>] 表示不是">"中的任何一个字符
//   [^<]   表示不是"<"中的任何一个字符
  Pattern p = Pattern.compile("<a//s*href=[^>]*>[^<]*</a>");// 编译正则表达式后放到p里面
  Matcher m = p.matcher(str);// 匹配正则表达式
  boolean result = m.find();
  // 循环输出所有<a></a>标签
  while (result) {
   System.out.println(m.group());
   result = m.find();
  }
 }
}

 
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值