抓取网页内容

本文展示了一个简单的Java方法用于从指定URL抓取网页内容。该方法首先验证URL的有效性,然后利用正则表达式检查URL格式是否正确,接着通过URL对象及连接获取网页的全部内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

public static final String generate(final String url) {
if (StringUtils.isBlank(url)) {
return null;
}
Pattern pattern = Pattern.compile("(http://|https://){1}[\\w\\.\\-/:]+");
Matcher matcher = pattern.matcher(url);
if (!matcher.find()) {
return null;
}
StringBuffer sb = new StringBuffer();
try {
URL _url = new URL(url);
URLConnection urlConnection = _url.openConnection();
BufferedReader in = new BufferedReader(new InputStreamReader(urlConnection.getInputStream()));
String inputLine;
while ((inputLine = in.readLine()) != null) {

sb.append(inputLine);




String url = "http://www.bnu.edu.cn";//www.bnu.edu.cn";

02URL theUrl= new URL(url);
03openStream = theUrl.openStream();
04//<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
05//构建输入流的的字符集必须和HTML源码中的 charset一致
06bf = new BufferedReader(new InputStreamReader(openStream,"utf-8"));
07String line = null;
08while((line = bf.readLine())!=null) {
09    System.out.println(line);
10}


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值