java爬虫：jsoup的简单案例

最新推荐文章于 2025-06-01 12:58:03 发布

原创最新推荐文章于 2025-06-01 12:58:03 发布 · 905 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#java爬虫jsoup简单案例

本文介绍了一个使用Java库JSoup实现的简单网页爬虫示例。该爬虫能够从指定URL抓取页面并解析出所有链接。通过设置连接超时时间及链接筛选条件，可以有效地避免被目标网站封禁，并过滤掉不感兴趣的链接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

package jsoup;

import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

//jsoup跟JavaScript有些类似，主要用于爬取静态的网页。需要自己下载一个jar包jsoup-1.8.1.jar
public class GetLinks {

public static void getLinks(String url) {

try {

//此处使用循环来遍历链接(如果存在多个链接的话)

for(int h=1;h<=8;h++){

//对链接进行拼接(格式需要自己重新定义，每个网站的格式都不相同)

//此处timeout设置了延迟，减少被网站识别爬虫的几率

Document doc = Jsoup.connect(url+"o"+h+"/")
.timeout(14000)
.get();
//此处需要自己填写网页中标签对应的id属性值
Element content = doc.getElementById("id属性值");

//用于存储链接
String linkHref="";
//获取链接(因为链接是多个所以使用"Elements")
Elements links=content.getElementsByTag("a");

for(int i=0;i<links.size();i++){

//获取链接的全称

linkHref = links.get(i).attr("abs:href");

//对获取的链接进行一些简单的操作

if(linkHref.indexOf("gongsi")==-1)
System.out.println(linkHref)；
}
}
}
} catch (IOException e) {
e.printStackTrace();
}
}
//主程序main

public static void main(String[] args) {

//需要自己填写一个url地址

String first="";
getLinks(first);
}
}