Java编写网络爬虫笔记(第三部分:Jsoup的强大)

最新推荐文章于 2025-11-25 19:44:04 发布

原创最新推荐文章于 2025-11-25 19:44:04 发布 · 891 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#jsoup #网络 #爬虫

Java 专栏收录该内容

4 篇文章

订阅专栏

本文介绍了一种利用Java库JSOUP从网页中提取所有链接的方法。通过连接指定URL并获取页面内容，该工具能够解析HTML并筛选出所有的<a>标签及其href属性，进而收集所有绝对路径的URL。

基于httpclient下载的页面，接着就是应该提取url了，最开始我用的是htmlpraser，过几天后，我就发现了还有jsoup这个包，非常的好用，接着我就直接用jsoup来抓取页面和提取出里面的url了，在这里跟大家分享一下代码。

import java.io.IOException;
import java.util.HashSet;
import java.util.Iterator;
import java.util.Set;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;


public class JSOUP {


    public static Set<String> extractLinks(String url){
        Set<String> urls = new HashSet();
    try {
        Document doc =Jsoup.connect(url).get();
        Elements links=doc.select("a[href]");
    //  System.out.println(links.size());
        for(Element link :links){
            String Url =link.attr("abs:href");
                urls.add(Url);

        }


    } catch (IOException e) {
        // TODO 自动生成的 catch 块
        e.printStackTrace();
    }
    return urls;
}