jsoup: Java HTML 解析器

最新推荐文章于 2021-02-10 22:02:16 发布

翻译最新推荐文章于 2021-02-10 22:02:16 发布 · 1k 阅读

文章标签：

#java #bsh #html解析器

bsh 专栏收录该内容

14 篇文章

订阅专栏

本文介绍使用JSoup Java库抓取优快云极客头条内容的方法。通过简单的示例代码展示如何连接到指定URL，获取页面文档并解析其中的链接。此教程适合希望了解网页抓取基础知识的开发者。

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。

请参考：jsoup.org

例如: beanshell 抓取优快云极客头条内容 soup.bsh

// package org.jsoup.examples;
import org.jsoup.Jsoup;
import org.jsoup.helper.Validate;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

/**
 * closure program to list links from a URL.
 */
ListLinks()
{
    run(String url){
        if(url.length() <10) return;
        print(url);

        Document doc = Jsoup.connect(url).get();
        Elements links = doc.select("h4 a"); // direct a after h4
 
        print("Links: "+ links.size() +"\n");
        for (Element link : links) {
            print(link.attr("abs:href"));
			print(link.text());
        }
    }
    return this;
}

lslinks = ListLinks();
lslinks.run("http://geek.youkuaiyun.com/hot");

cmd 运行 java bsh.Interpreter soup.bsh