java中根据url抓取html页面内容的方法

最新推荐文章于 2021-11-10 10:31:31 发布

原创最新推荐文章于 2021-11-10 10:31:31 发布 · 469 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Java #HTML #.net #JSP

转载专栏收录该内容

2 篇文章

订阅专栏

本文提供了一个使用Java进行网页抓取的简单示例代码。该示例通过发送HTTP请求获取指定URL的内容，并读取返回的HTML文本。具体步骤包括创建URL对象、打开连接、读取输入流并拼接成完整的HTML字符串。

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;

public class Test {

public static String getHtml(String urlString) {
try {
StringBuffer html = new StringBuffer();
URL url = new URL(urlString);
HttpURLConnection conn = (HttpURLConnection) url.openConnection();
InputStreamReader isr = new InputStreamReader(conn.getInputStream());
BufferedReader br = new BufferedReader(isr);
String temp;
while ((temp = br.readLine()) != null) {
html.append(temp).append("\n");
}
br.close();
isr.close();
return html.toString();
} catch (Exception e) {
e.printStackTrace();
return null;
}
}

public static void main(String[] args) {
System.out.println(Test.getHtml("http://192.168.1.1:8080/test/test.jsp"));
}

}