java爬虫:jsoup的简单案例

本文介绍了一个使用Java库JSoup实现的简单网页爬虫示例。该爬虫能够从指定URL抓取页面并解析出所有链接。通过设置连接超时时间及链接筛选条件,可以有效地避免被目标网站封禁,并过滤掉不感兴趣的链接。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

package jsoup;

import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

//jsoup跟JavaScript有些类似,主要用于爬取静态的网页。需要自己下载一个jar包jsoup-1.8.1.jar
public class GetLinks {

public static void getLinks(String url) {

try {

                        //此处使用循环来遍历链接(如果存在多个链接的话)

for(int h=1;h<=8;h++){

                                //对链接进行拼接(格式需要自己重新定义,每个网站的格式都不相同)

                                //此处timeout设置了延迟,减少被网站识别爬虫的几率

Document doc = Jsoup.connect(url+"o"+h+"/")
.timeout(14000)
.get();
                                //此处需要自己填写网页中标签对应的id属性值
Element content = doc.getElementById("id属性值");

//用于存储链接
String linkHref="";
//获取链接(因为链接是多个所以使用"Elements")
Elements links=content.getElementsByTag("a");

for(int i=0;i<links.size();i++){

                                        //获取链接的全称

linkHref = links.get(i).attr("abs:href");

                                        //对获取的链接进行一些简单的操作

if(linkHref.indexOf("gongsi")==-1)
System.out.println(linkHref);
}
}
}
} catch (IOException e) {
e.printStackTrace();
}
}
//主程序main

public static void main(String[] args) {

                //需要自己填写一个url地址

String first="";
getLinks(first);
}
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值