java 拿html页面的数据-优快云博客

用Java获取HTML页面数据的方法

在Web开发中，我们经常需要从HTML页面中获取数据并进行处理。Java作为一种强大的编程语言，提供了许多方法来实现这一目标。本文将介绍如何使用Java来获取HTML页面的数据，并提供相应的代码示例。

1. 使用Java的URL和URLConnection类

Java的URL和URLConnection类提供了一种简单的方式来获取HTML页面的数据。下面是一个简单的示例代码：

import java.net.URL;
import java.net.URLConnection;
import java.io.BufferedReader;
import java.io.InputStreamReader;

public class HtmlReader {
    public static void main(String[] args) {
        try {
            URL url = new URL("
            URLConnection conn = url.openConnection();
            BufferedReader reader = new BufferedReader(new InputStreamReader(conn.getInputStream()));

            String inputLine;
            while ((inputLine = reader.readLine()) != null) {
                System.out.println(inputLine);
            }

            reader.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

上面的代码通过URL类创建了一个连接到指定URL的对象，并通过URLConnection类获取了页面数据。然后使用BufferedReader类读取数据并输出到控制台。

2. 使用第三方库Jsoup

Jsoup是一个用于解析HTML文档的Java库，使用它可以更方便地获取和处理HTML页面的数据。下面是一个使用Jsoup的示例代码：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

public class HtmlParser {
    public static void main(String[] args) {
        try {
            Document doc = Jsoup.connect("
            Elements links = doc.select("a[href]");

            for (Element link : links) {
                System.out.println(link.attr("href"));
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

上面的代码使用Jsoup连接到指定URL并解析HTML文档，然后通过选择器select("a[href]")获取所有带有href属性的链接，并输出链接地址。

3. 使用HttpClient库

HttpClient是一个功能强大的HTTP客户端库，可以用于发送HTTP请求并获取响应。下面是一个使用HttpClient获取HTML页面数据的示例代码：

import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.HttpClient;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.HttpClientBuilder;
import org.apache.http.util.EntityUtils;

import java.io.IOException;

public class HtmlFetcher {
    public static void main(String[] args) {
        HttpClient client = HttpClientBuilder.create().build();
        HttpGet request = new HttpGet("

        try {
            String html = EntityUtils.toString(client.execute(request).getEntity());
            System.out.println(html);
        } catch (ClientProtocolException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

上面的代码使用HttpClient发送GET请求获取HTML页面数据，并将响应内容输出到控制台。

序列图示例

下面是一个使用Java获取HTML页面数据的序列图示例：

结语

通过本文的介绍，我们学习了如何使用Java来获取HTML页面的数据。无论是使用Java标准库中的URLConnection类，还是使用第三方库Jsoup和HttpClient，都能够方便地实现这一目标。希望本文对您有所帮助，谢谢阅读！

原创作者: u_16175450 转载于: https://blog.51cto.com/u_16175450/11428756