把本程序改造为一个输入一个起始URL及其参数之后就可以下载此URL及其参数所指定的WEB页面以及此WEB页面中HTML语言超级链接所指向的所有WEB页面(只下载一级即可)。
主要需要利用Pattern类方法和正则表达式来获取超链接
import java.io.*;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
class HtmlParser1 {
String htmlUrl;
ArrayList<String> hrefList = new ArrayList();
String charSet;
public HtmlParser1(String htmlUrl) {
// TODO 自动生成的构造函数存根
this.htmlUrl = htmlUrl;
}
public ArrayList<String> parser() throws IOException {
//获得该网页下的超链接
URL url = new URL(htmlUrl); //创建URL对象,建立连接
HttpURLConnection connection = (HttpURLConnection) url.openConnection();
connection.setDoOutput(true);
String contenttype = connection.getContentType